「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pij 是系統 A 處於微觀狀態 i 系統 B 處於微觀狀態 j 的概率。假設 Pi, Pj 獨立(當作兩個骰子),Pij = Pi Pj,並應用性質一,

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pij 是系統 A 處於微觀狀態 i 系統 B 處於微觀狀態 j 的概率。假設 Pi, Pj 獨立(當作兩個骰子),Pij = Pi Pj,並應用性質一,

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

待定函數 f 必須讓等式對任意Pi, Pj的取值都成立。為了能讓乘法變加法,就想到對數函數log,整上去試試。

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pij 是系統 A 處於微觀狀態 i 系統 B 處於微觀狀態 j 的概率。假設 Pi, Pj 獨立(當作兩個骰子),Pij = Pi Pj,並應用性質一,

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

待定函數 f 必須讓等式對任意Pi, Pj的取值都成立。為了能讓乘法變加法,就想到對數函數log,整上去試試。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

太棒了,剛好合適。Reynolds和Perkins發現,其實最通用的形式是 f = C log(Pi),其中 C 是任意常數。由於 Pi 都是小於 1 的,為了讓熵為非負的,可以將熵定義成:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pij 是系統 A 處於微觀狀態 i 系統 B 處於微觀狀態 j 的概率。假設 Pi, Pj 獨立(當作兩個骰子),Pij = Pi Pj,並應用性質一,

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

待定函數 f 必須讓等式對任意Pi, Pj的取值都成立。為了能讓乘法變加法,就想到對數函數log,整上去試試。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

太棒了,剛好合適。Reynolds和Perkins發現,其實最通用的形式是 f = C log(Pi),其中 C 是任意常數。由於 Pi 都是小於 1 的,為了讓熵為非負的,可以將熵定義成:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

再來看看性質二。要在滿足 Pi 求和等於 1 的約束條件下,讓 S 獲得極值。用直覺或拉格朗日乘子法就可以得到此時各個 Pi 都相等,也就是每種狀態都是等概率的。N = 1 / Pi,N 是狀態總數。把 C 換成玻爾茲曼常數 k,k=1.380 x 10^-23 J/K,就得到了玻爾茲曼熵:

沒有應用數學,只有數學的應用。概率論作為數學的一個重要分支,成功的讓許多人望而卻步。其實日常生活中有很多概率論的實際應用。想不想讓隨機迷茫的人生變得明朗可控?帶著具體問題出發,讓好奇心戰勝恐懼感,盡情感受數學之美吧。

[生活概率論-5] 中曾提到了 。這個神祕的字在物理和數學中很常見,網上相關的提問和解釋甚多,足見其重要且不易理解:

  1. 宏觀熱力學屬性:反映自發過程不可逆性的一個物態參量

  2. 微觀熱力學屬性:系統微觀狀態數的對數

  3. 信息論:信息量的大小

  4. 信息論:描述清楚一個事物的難易程度

  5. 物理學:描述系統的無序/隨機的程度

  6. 概率論:意外程度的期望值

  7. ...

這次我嘗試從不同角度,儘量自然的引出熵的定義,同時讓讀者看到其中的關聯,對熵有一個直觀的理解。

考慮一個封閉的房間,裡面只有空氣。在宏觀上,可以用體積、壓強和溫度這三個物理量描述這個房間的熱力學屬性。在微觀上,空氣是由許多氣體分子組成的,每個分子都由一組微觀狀態描述,比如質量、位置和速度。由於分子個數實在太多,所以需要大量參數,計算難度太高。能不能用一個物理量來概括呢?這正是奧地利最偉大的理論物理學家之一——玻爾茲曼所考慮的問題。

直接用微觀狀態數來概括,可以嗎?假設房間裡的空氣有 N 種微觀狀態,那兩個房間的空氣就有 N*N 種狀態。就好比扔一個骰子有 6 種可能的結果,扔兩個骰子有36種可能的結果。你看,是不是還得動動腦子?所以直接用微觀狀態數不夠好。能不能有更符合直覺的物理量呢?就像質量那樣,兩個房間的空氣,就是簡單相加的關係。答案是能!玻爾茲曼大約在1872到1875年間找到了一個公式: S = k ln(N),其中 S 就叫做玻爾茲曼熵(Entropy),N 是微觀狀態總數,k 是玻爾茲曼常數(推導過程放在附錄了)。於是乎,如果一屋空氣的熵是 S,則兩屋是 2S。這個公式實在太簡潔了,而且引入了用統計方法來研究物理學的新思路,影響極其深遠。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

玻爾茲曼的墓碑上刻著熵的公式

再看看信息熵。這個概念是在1948年香農提出的。當時他正在收聽電報,有人問裡面有多少信息?之後,信息論就誕生了。

考慮一個0-9的旋轉密碼鎖(舊款ofo單車那種鎖)。如果是 2 位的,有 10^2 = 100 種組合;如果是 4 位的,就有 10^4 = 10000 種組合。注意到,儘管後者所能表達的密碼組合是前者的 100 倍,但使用的位數僅是前者的2倍。所以香農意識到,信息量是組合數量的對數。在信息論中,習慣上使用 底數為 2 的Log函數,信息熵表示信息需要多少bit才能描述,跟計算機中的bit對應。所以信息熵 H = Log2(N),N 是所有組合的個數。信息熵表達了信息量的大小。感受一下:

  • 2位密碼鎖,H = Log2(100) = 6.64 bits

  • 3位密碼鎖,H = Log2(1000) = 9.97 bits

  • 4位密碼鎖,H = Log2(10000) = 13.29 bits

  • 10 bits 能表示1024種組合

另一種等價描述是:信息熵表示平均情況下至少需要問多少個yes/no的問題,才能確定目標的狀態。每比特的值 0 或 1,就是這些問題的答案。比如玩猜字母遊戲,如果逐個問:這個字母是A嗎?這個字母是B嗎?...平均來說需要 13.46 次提問(請自行驗證)才能猜對。但使用二分查找顯然是更好的提問方式,問這個字母是在A到M之間嗎?如果是,再問這個字母是在A到G之間嗎?...這種問法,平均只需要 Log2(26)=4.70 次提問即可猜對。所以每個字母需要用 4.7 bits 才能描述。

附錄中推導玻爾茲曼熵時,假設了每種微觀狀態是等概率的。但在信息論中,每種狀態的概率可以不同。比如字母 j、x、q、z 在英語使用的頻率就遠低於其他字母,所以每個英文字母的信息量大約在 Log2(22) = 4.46 bits 附近,肯定低於 4.70。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

英文字母在文章中的相對出現頻率

更精確的說,每個英文字母的信息熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pi 是每個字母出現的概率。當出現概率都相等時,上述求和退化為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

看似奇怪,但信息熵的這種定義是很合理的。假如我們只使用一個字母來發送信息,其實什麼信息都沒傳達,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (規定0 log(0) = 0)。因為不用想,也知道下一個字母是什麼,所以信息量為 0 。如果每種字母都以同等概率出現,預測下一個字母是什麼的難度會達到最高,每個字母所包含的信息量達到最大。這就是為什麼壓縮文件的內容看起來很隨機。因為如果不隨機,你能找到規律,就表示可以通過這個規律進一步壓縮。比如ABABABABAB,完全可以寫成 5AB 來節省空間。

彙總一下,在各狀態等概率出現的情況下,玻爾茲曼熵和信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

如果各狀態出現概率不等,玻爾茲曼熵就變為了Gibbs熵,也與信息熵只差一個常數:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

可以看出,信息熵是更本質的,玻爾茲曼熵和Gibbs熵都是隻限定於物理系統的狀態,強調宏觀和微觀世界的聯繫。其實所有物理狀態都可以看作是信息,而宇宙就是一臺巨型模擬器,其本質是對信息的計算,程序就是物理規律。

從平均最少提問次數的角度看,把熵解釋為“描述清楚一件事的難易程度”就很自然了。比如一部全新的iPhone X,熵很低,可以簡短的用“iPhone X”來描述;後來屏幕摔裂了,可以用“屏幕有裂痕的iPhone X”來描述;再後來又出現各種故障,就得用“時不時會死機、攝像頭壞了、屏幕還有裂痕的iPhone X”來描述。隨著時間推移,這部手機的熵逐漸增加,就需要越來越長的語句才能精確描述。直到最後成為一堆“廢鐵”。此處只用倆字,不是因為熵變低了;恰恰相反,此時熵已經非常高,幾乎不可能描述清楚了——畢竟我們還有許多比“數原子”更有意義的事情去做。-_-!!

考慮到 Pi 如果越小,其倒數就越大,則可以的選擇 Log2(1/Pi) 來表示事件的意外程度。在這種意義下,信息熵就是意外程度的期望值了:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

來一個關於熵的有趣應用吧。比如本文,熵肯定是很低的,因為我不是隨便碼字,而是寫出讓人能理解的語句。同時,每個字後面緊跟的字也是很有規律的。比如“概”字後面有很大可能出現“率”字。這種關聯性體現在條件熵(Conditional Entropy)中,跟條件概率很像,表示已知一個信息的前提下,另一個信息的價值(信息量)。考慮兩種極端情況:

  1. 每個字後面都跟隨確定的字

  2. 每個字都是獨立選擇的,與前面的字無關

對於第一種情況,顯然條件熵是很低(為 0),因為不看也知道後面會出現什麼(查規則表即可)。對於第二種情況,沒法猜測下一個字是什麼,條件熵跟單個字的熵一樣大。真正的語言肯定是介於二者之間的。於是乎,我們可以通過統計書本中臨近出現的漢字、英語單詞等來計算不同語言的條件熵,發現他們都非常接近。好,有了這把尺子,就可以去統計一下印度河文字(Indus Script)這種至今還未破譯的古字符(公元前26世紀-20世紀),會發現其條件熵跟已知的語言很接近,而遠離那兩種極端情況。這個結果表示,儘管目前人們還無法理解印度河文字所記載的內容,但它有很大可能是一種語言,而不是規律性的花紋或隨機的符號序列。

本文從不同角度解釋了熵的含義,限於篇幅,只能儘量把概念描述清楚。後面會通過一系列文章,展開跟熵有關的各種應用,比如最大熵原理,為何熵無法自發的降低,最小二乘法,決策樹等等,敬請期待。


【附錄】玻爾茲曼公式推導

一個受限制的系統(比如一定體積內或固定總能量)不斷的在N種微觀狀態中遷移(分子不斷碰撞),儘管狀態數很大,但有限。系統處於每種狀態的概率為Pi,在任何指定時刻,有

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

當系統達到平衡態時,雖然單個原子的狀態依舊不斷改變,但處於每種狀態的概率不再隨時間變化,此時 Pi 描述了平衡態的分佈。現在要尋找一個物理量 S,起名為熵。它是 Pi 的某個函數 f 的期望值,且滿足兩個很好的性質。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質一,對系統 A、B 以及由二者組合成的系統 C,熵具有可加性

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

性質二,熵隨著系統隨機性/混亂程度的增加而增加;當所有微觀狀態的可能性相等時,熵達到最大

那就試著湊一湊。假設系統 A 有 n 種微觀狀態,系統 B 有 m 種微觀狀態,則系統 A、B、C 的熵為:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

其中 Pij 是系統 A 處於微觀狀態 i 系統 B 處於微觀狀態 j 的概率。假設 Pi, Pj 獨立(當作兩個骰子),Pij = Pi Pj,並應用性質一,

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

待定函數 f 必須讓等式對任意Pi, Pj的取值都成立。為了能讓乘法變加法,就想到對數函數log,整上去試試。

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

太棒了,剛好合適。Reynolds和Perkins發現,其實最通用的形式是 f = C log(Pi),其中 C 是任意常數。由於 Pi 都是小於 1 的,為了讓熵為非負的,可以將熵定義成:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

再來看看性質二。要在滿足 Pi 求和等於 1 的約束條件下,讓 S 獲得極值。用直覺或拉格朗日乘子法就可以得到此時各個 Pi 都相等,也就是每種狀態都是等概率的。N = 1 / Pi,N 是狀態總數。把 C 換成玻爾茲曼常數 k,k=1.380 x 10^-23 J/K,就得到了玻爾茲曼熵:

「生活概率論-7」如果有人問你熵是什麼,請讓Ta看這篇

k 是連接微觀物理和宏觀物理的橋樑。從其數量級可以猜到跟阿伏伽德羅常數(Avogadro constant)有關。k = R / Na,其中 R 是理想氣體常數 8.3143 J/(mol K),Na 是阿伏伽德羅常數,6.02 x 10^23。所以有時 k 也被稱作每個分子的氣體常數。這個具體的 k,使得從微觀統計定義的熵數值上等於了宏觀熱力學定義的熵,dS=dQ/T。


【引文】

  1. http://www.askamathematician.com/2010/01/q-whats-the-relationship-between-entropy-in-the-information-theory-sense-and-the-thermodynamics-sense/

  2. https://en.wikipedia.org/wiki/Entropy_in_thermodynamics_and_information_theory

  3. https://www.zhihu.com/question/24053383

相關推薦

推薦中...