"
"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
拯救數據科學的“半貝葉斯人”

2.使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
拯救數據科學的“半貝葉斯人”

2.使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

拯救數據科學的“半貝葉斯人”

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權衡

你可能已經在想:我們怎麼知道ƒ是否具有線性形式?因為ƒ的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的ƒ相差太遠,那麼估計就會有偏差。那為什麼我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內在的權衡。靈活性是指模型可以生成的用以適應ƒ的多種不同的可能函數形式的形狀範圍,因此模型越靈活,它產生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜並且需要更多參數來擬合,並且ƒ的估計通常變得太複雜以至於任何預測因子的關聯都難以解釋。另一方面,線性模型中的參數相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統計學習模型中的這種靈活性-可解釋性之間的權衡:

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
拯救數據科學的“半貝葉斯人”

2.使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

拯救數據科學的“半貝葉斯人”

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權衡

你可能已經在想:我們怎麼知道ƒ是否具有線性形式?因為ƒ的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的ƒ相差太遠,那麼估計就會有偏差。那為什麼我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內在的權衡。靈活性是指模型可以生成的用以適應ƒ的多種不同的可能函數形式的形狀範圍,因此模型越靈活,它產生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜並且需要更多參數來擬合,並且ƒ的估計通常變得太複雜以至於任何預測因子的關聯都難以解釋。另一方面,線性模型中的參數相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統計學習模型中的這種靈活性-可解釋性之間的權衡:

拯救數據科學的“半貝葉斯人”

正如你所看到的,具有更好預測精度、同時也更靈活的機器學習模型(例如支持向量機和Boosting方法)的可解釋性非常低。對ƒ的函數形式進行較肯定的假設使模型更具解釋性,推理建模在這個過程中也放棄了對預測準確性的追求。

因果識別/反事實推理

但是,請等一等!即使用了能很好符合並且高度可解釋的模型,你仍然不能將這些統計數據用作證明因果關係的獨立證據。這是因為,“相關性不是因果關係”啊!這裡有一個簡單的例子:假設你有一百個旗杆及其陰影的長度和太陽位置的數據。你知道陰影的長度是由杆的長度和太陽的位置決定的,但是即便你將杆的長度設置為因變量而把陰影長度作為自變量,你的模型仍然會十分符合統計顯著性係數。顯然,你不能說杆子的長度受陰影長度影響。這就是為什麼我們不能僅通過統計模型進行因果推理,我們還需要背景知識和理論來證明我們的結論。因此,因果推理的數據分析和統計建模通常要受到理論模型的嚴格指導。

即使你確實有一個堅實的理論依據說X導致Y,確定因果關係仍然非常棘手。這是因為,評估因果效應涉及要識別在沒有發生X的“反事實世界“裡會發生什麼,這顯然是你觀察不到的。

這還有另一個簡單的例子:設想一下你要確定維生素C對健康的影響。你有某人是否服用維生素的數據(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
拯救數據科學的“半貝葉斯人”

2.使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

拯救數據科學的“半貝葉斯人”

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權衡

你可能已經在想:我們怎麼知道ƒ是否具有線性形式?因為ƒ的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的ƒ相差太遠,那麼估計就會有偏差。那為什麼我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內在的權衡。靈活性是指模型可以生成的用以適應ƒ的多種不同的可能函數形式的形狀範圍,因此模型越靈活,它產生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜並且需要更多參數來擬合,並且ƒ的估計通常變得太複雜以至於任何預測因子的關聯都難以解釋。另一方面,線性模型中的參數相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統計學習模型中的這種靈活性-可解釋性之間的權衡:

拯救數據科學的“半貝葉斯人”

正如你所看到的,具有更好預測精度、同時也更靈活的機器學習模型(例如支持向量機和Boosting方法)的可解釋性非常低。對ƒ的函數形式進行較肯定的假設使模型更具解釋性,推理建模在這個過程中也放棄了對預測準確性的追求。

因果識別/反事實推理

但是,請等一等!即使用了能很好符合並且高度可解釋的模型,你仍然不能將這些統計數據用作證明因果關係的獨立證據。這是因為,“相關性不是因果關係”啊!這裡有一個簡單的例子:假設你有一百個旗杆及其陰影的長度和太陽位置的數據。你知道陰影的長度是由杆的長度和太陽的位置決定的,但是即便你將杆的長度設置為因變量而把陰影長度作為自變量,你的模型仍然會十分符合統計顯著性係數。顯然,你不能說杆子的長度受陰影長度影響。這就是為什麼我們不能僅通過統計模型進行因果推理,我們還需要背景知識和理論來證明我們的結論。因此,因果推理的數據分析和統計建模通常要受到理論模型的嚴格指導。

即使你確實有一個堅實的理論依據說X導致Y,確定因果關係仍然非常棘手。這是因為,評估因果效應涉及要識別在沒有發生X的“反事實世界“裡會發生什麼,這顯然是你觀察不到的。

這還有另一個簡單的例子:設想一下你要確定維生素C對健康的影響。你有某人是否服用維生素的數據(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

拯救數據科學的“半貝葉斯人”

Y1代表服用維生素C的人的健康狀況,Y0代表那些不服用維生素C的人的健康狀況。為了確定維生素C對健康的影響,我們要估計平均治療效果:

= E(Y₁)- E(Y₀)

但是為了做到這一點,我們需要知道不服用維生素C、但原本有服用維生素C的人的健康狀況,反之亦然(或E(Y0 | X = 1)和E (Y1 | X = 0)),表中的星號表示不可觀察的反事實結果。沒有這些輸入,我們就不能一致地評估平均治療效果(θ)。

更糟糕的是,想象一下這種情況:健康的人往往服用維生素C,不健康的人則不會。在這種情況下,即使維生素C實際上對健康沒有任何影響,恐怕也會顯示強烈的治療效果。在此,先前的健康狀況被稱為影響維生素C攝入和健康狀況(X和Y)的混淆因素,這導致對估計的偏差。

產生的相合估計的最安全的方法是通過對治療進行隨機化實驗,使X獨立於Y。當隨機分配治療實驗時,未治療組結果的均值可以作為代表治療組的反事實結果的無偏值,並可以保證這樣做消除了混淆因素。A/B測試就以這個觀點為指導。但是隨機實驗並不總是可行的(甚至可能是不道德的,比如如果我們想要研究吸菸或吃太多巧克力餅乾對健康影響的話),在這些情況下,必須通過觀察常常是非隨機實驗的數據來評估因果效應。有許多統計技術通過構建反事實結果或模擬觀測數據中的隨機治療分配來識別非實驗環境中的因果效應,但可以想象,這些類型的分析結果往往不是非常穩健或可重複。更重要的是,這些方法的造成障礙的層面並不是為了提高模型的預測準確性而設計的,而是為了通過結合邏輯和統計推斷來提出因果關係的證據。

評價預測模型是否成功比因果模型要容易得多 ——預測模型有標準的性能度量,但評估因果模型的相對成功要困難得多。但即使因果推理很棘手,也並不意味著我們應該停止嘗試。預測模型和因果模型有著非常不同的目的,需要非常不同的數據和統計建模過程,通常這兩點同時發生。這一關於電影業的例子說明了這一點:電影製片廠使用預測模型來預測票房收入,以預測電影發行的票房結果,評估其電影放映組合的金融風險/回報等。但預測模型在理解電影市場的結構和動態併為投資決策提供信息方面不是很有用。這是因為在電影製作過程的早期階段(通常是發佈日期之前的好幾年),當做出投資決策時,可能的票房結果的方差非常高,因此基於早期階段輸入數據的預測模型的準確性要大為降低。預測模型在電影發行日期附近才是最準確的,然而這個時候絕大多數製作決策已經被制定,預測也就失去了行動指導力。另一方面,因果推理建模允許製片商瞭解到,不同的生產特徵如何影響生產過程早期階段的潛在收入,因此對於幫助制定其策略至關重要。

我們真的過分強調預測嘛?

從定量研究文獻的現狀來看,不難看出為什麼Chomsky感到不安 - 預測模型現在主導著學術界和業界。對學術預印本的文本分析發現,在增長最快的定量研究領域中,近十年來越來越關注預測。例如,在AI中,提及與“預測”相關的術語的論文數量增長了2倍以上,而提及與“推理”相關的術語的論文數量自2013年以來已經下降了一半。現今的數據科學課程在很大程度上忽略了因果推理方法,並且數據科學業界大多期望從業者專注於預測模型。即使像Kaggle和Netflix大獎賽這樣高調的數據科學競賽也總是專注於改進預測性能指標。

另一方面,仍有許多領域沒有對經驗預測給予足夠的重視,儘管它們可以從機器學習和預測建模方面的進步中受益。

但是,把目前的狀況描述為“Chomsky隊”和“Norvig隊”之間的文化戰爭似乎是一個錯誤的選擇 —— 誰說我們只能二選一的呢,在很多時候這兩種觀點會相互交流相互促進。

為了讓機器學習模型更易於理解,我們能做得還有很多。比方說,我對斯坦福大學Susan Athey在因果推理方法中應用機器學習技術的工作尤其感興趣。

"
拯救數據科學的“半貝葉斯人”

大數據文摘出品

來源:towardsdatascience

編譯:趙偉、張秋玥、錢天培

一位科學家在他的論文中寫道:"人類知識的大部分是圍繞因果關係而不是概率關係組織的,而概率微積分的語法並不足以描述這些關係......正因如此,我認為自己只是半個貝葉斯人"。

或許一場關於自然語言處理的精彩辯論可以告訴我們何謂“半個貝葉斯人”,讓我們把時光撥回到幾年前。

一場精彩的辯論

辯論的雙方分別是:號稱“現代語言學之父”Noam Chomsky、身為谷歌研發總監的Peter Norvig。他們分別是自然語言處理領域的舊派和新派代表。

當談到該領域的發展方向時,Chomsky說到:

“想象一下,有人說他想要消滅物理系並轉而使用‘正確’的方式。所謂‘正確’的方式是將真實世界發生的事情錄製成無數錄像帶,然後將這數十億字節的數據輸入最大、最快的計算機,並進行復雜的統計分析 - 你知道的,對所有東西都用一下貝葉斯方法 - 你就能對接下來會發生的事情做一些預測。事實上,你做的預測會比物理學家能給出的好得多。“如果‘成功’被定義為對大量混亂的未分析數據的合理近似,那麼這樣做的結果比物理學家的更接近‘成功’。顯而易見,這樣一來,諸如絕對光滑平面之類的思想實驗就不復存在了。但這樣做,你將不會得到科學所一直致力於達到的那種理解水平 - 你所得到的只是對正在發生的事情的近似。”

Chomsky在許多其他場合也強調了這種觀點:當前對‘成功’自然語言處理的定義 —— 即預測準確性 —— 並不科學。將“一些巨大的語料庫”投入到“複雜的機器”,僅僅是“未分析數據的近似處理”簡直就像撞大運,並不能使我們“真正理解”語言。

他認為,科學的首要目標是發現關於系統實際運作的“解釋性原理”,而實現目標的“正確方法”則是“讓理論引導數據”:通過精心設計的實驗抽離掉“不相關干擾”,以此來研究系統的基本性質 - 就像自伽利略以來的現代科學研究方法一樣。簡而言之:“只處理待分析的混亂數據不太可能讓你明白任何原理,就算你是伽利略也不行。”

Norvig隨後以一篇長文迴應了Chomsky的主張,這篇文章挑戰了Chomsky在科學上的‘成功’的觀念,併為使用概率模型象徵人類語言處理進行了辯護。Norvig指出,語言處理中幾乎所有主要的應用領域 - 搜索引擎、語音識別、機器翻譯和問答 - 都是由訓練有素的概率模型主導,因為它們比基於理論/邏輯規則的舊工具表現得更好。

他認為,Chomsky關於科學上的“成功”的標準 - 強調找到原因而忽視方法的重要性 – 是誤入歧途,這可以引用Richard Feynman的話加以說明:“沒有論證,物理學可以進步;但沒有事實,我們寸步難行。”

說起來其實還挺low的,Norvig順帶提了一句 - 概率模型“每年創造數萬億美元的收入,而Chomsky理論的產物幾億美元都不到。” (注:數據來自在亞馬遜上Chomsky著作的銷售額)

Norvig揣測,Chomsky對“對一切應用貝葉斯方法”的蔑視實際上來自於Leo Breiman所描述的統計模型中兩種文化之間的分裂。

1)數據建模文化,它假設自然是一個內部變量隨機聯繫的黑箱,建模者的任務就是確定最符合這些聯繫的模型;

2)算法建模文化,它假設黑箱中的關聯太複雜而不能用簡單模型來描述,此時建模者的任務就是使用能最好地用輸入量估計輸出量的算法,而不再期望黑箱內變量真正的潛在聯繫可以被理解。

Norvig認為Chomsky可能對概率模型(數據建模文化)本身並沒有什麼意見,他只是針對具有“億萬參數”且難以解釋的算法模型,因為它根本無法解決“為什麼”的問題。

Norvig屬於2號陣營,他們認為像語言這樣的系統過於複雜、隨機,很難用一小組參數來表示;抽離出複雜性就類似於製造一個實際上不存在的、“完全符合永恆領域的神祕設施”,因此“忽略了語言是什麼以及它是如何工作的。”

Norvig在另一篇論文中重申,“我們應該停止以創造完美理論為目的的行為。我們應當擁抱系統複雜性、並接受數據就是有用的這一特點。”。他指出,在語音識別、機器翻譯甚至是幾乎所有使用網頁數據的機器學習應用中,例如基於數百萬計具體特徵的n-gram統計模型或線性分類器的這些簡單模型,比試圖發現普遍規律的精美模型表現更好。

這次辯論最讓人們受觸動的不是Chomsky和Norvig的分歧,而是他們的共識:他們都同意,不試圖去理解變量就用統計學習方法分析大量數據往往會產生比試圖給變量之間的關係建模更好的預測效果。

而且我們也並非唯一被這一現象困擾的人:那些被訪談過許多的具有數學科學背景的人也認為這是違反直覺的 - 最符合事物基本結構關係的方法難道不應該也是預測得最為準確的嗎?我們怎麼能在不知道事物如何實際運作的情況下做精準的預測呢?

預測與因果推論

即使在經濟學和其它社會科學等學術領域,預測能力和解釋能力的概念也通常被混為一談 - 顯示出高解釋力的模型通常被認為是具有高度預測性的。但是,構建最佳預測模型的方法與構建最佳解釋模型的方法完全不同,建模決策通常要考慮兩個目標之間的權衡。為了說明這兩種方法上的差異,下面是“An Introduction to Statistical Learning”(ISL,統計學習導引)中一段關於預測和推理建模的簡短摘要。

預測建模

預測模型的基本原理相對簡單,使用一組已知的輸入X來估計Y。如果X的誤差項平均為零,則可以使用以下方法預測Y:

拯救數據科學的“半貝葉斯人”

其中ƒ是由X提供的關於Y的系統信息,當給定X時,它給出結果Ŷ(Y的預測)。只要能準確地預測Y,ƒ的確切函數形式通常是不重要的,它被視為“黑箱”。

這種模型的準確度可以分解為兩部分,可減少的誤差和不可減少的誤差:

拯救數據科學的“半貝葉斯人”

為了提高模型的預測準確性,模型主要目標是通過使用最合適的統計學習技術來使可減少的誤差最小,從而估計ƒ。

推理建模

當我們的目標是理解X和Y之間的關係,比如Y是如何作為X的函數而變化時,ƒ不能被視為“黑箱”,因為我們無法在不知道函數形式的情況下理解X對Y的影響ƒ。

幾乎總是如此,在推理建模時,使用參數化方法來估計ƒ。參數化是指通過假設參數形式的ƒ並通過假設的參數來簡化對ƒ的估計的方法。這種方法有兩個一般步驟:

  1. 假設ƒ的函數形式。最常見的假設是ƒ是關於X的線性函數:
拯救數據科學的“半貝葉斯人”

2.使用數據擬合模型,也即找到參數值β0、β1、...、βp,使得:

拯救數據科學的“半貝葉斯人”

最常用的擬合模型的方法是普通最小二乘法(OLS)。

靈活性/可解釋性的權衡

你可能已經在想:我們怎麼知道ƒ是否具有線性形式?因為ƒ的真實形式是未知的,我們也不知道,如果我們選擇的模型與真實的ƒ相差太遠,那麼估計就會有偏差。那為什麼我們要先做出如此肯定的假設呢?這是因為模型的靈活性和可解釋性之間存在內在的權衡。靈活性是指模型可以生成的用以適應ƒ的多種不同的可能函數形式的形狀範圍,因此模型越靈活,它產生的形狀就能符合得越好,預測精度就越高。但是更靈活的模型通常更復雜並且需要更多參數來擬合,並且ƒ的估計通常變得太複雜以至於任何預測因子的關聯都難以解釋。另一方面,線性模型中的參數相對簡單且可解釋,即使它在準確預測方面做得不是很好。這是ISL中的一張圖表,它說明了不同統計學習模型中的這種靈活性-可解釋性之間的權衡:

拯救數據科學的“半貝葉斯人”

正如你所看到的,具有更好預測精度、同時也更靈活的機器學習模型(例如支持向量機和Boosting方法)的可解釋性非常低。對ƒ的函數形式進行較肯定的假設使模型更具解釋性,推理建模在這個過程中也放棄了對預測準確性的追求。

因果識別/反事實推理

但是,請等一等!即使用了能很好符合並且高度可解釋的模型,你仍然不能將這些統計數據用作證明因果關係的獨立證據。這是因為,“相關性不是因果關係”啊!這裡有一個簡單的例子:假設你有一百個旗杆及其陰影的長度和太陽位置的數據。你知道陰影的長度是由杆的長度和太陽的位置決定的,但是即便你將杆的長度設置為因變量而把陰影長度作為自變量,你的模型仍然會十分符合統計顯著性係數。顯然,你不能說杆子的長度受陰影長度影響。這就是為什麼我們不能僅通過統計模型進行因果推理,我們還需要背景知識和理論來證明我們的結論。因此,因果推理的數據分析和統計建模通常要受到理論模型的嚴格指導。

即使你確實有一個堅實的理論依據說X導致Y,確定因果關係仍然非常棘手。這是因為,評估因果效應涉及要識別在沒有發生X的“反事實世界“裡會發生什麼,這顯然是你觀察不到的。

這還有另一個簡單的例子:設想一下你要確定維生素C對健康的影響。你有某人是否服用維生素的數據(如果他們這樣做則X = 1;否則為0),以及一些二元化的健康狀況(如果他們健康則Y = 1;否則為0),如下所示:

拯救數據科學的“半貝葉斯人”

Y1代表服用維生素C的人的健康狀況,Y0代表那些不服用維生素C的人的健康狀況。為了確定維生素C對健康的影響,我們要估計平均治療效果:

= E(Y₁)- E(Y₀)

但是為了做到這一點,我們需要知道不服用維生素C、但原本有服用維生素C的人的健康狀況,反之亦然(或E(Y0 | X = 1)和E (Y1 | X = 0)),表中的星號表示不可觀察的反事實結果。沒有這些輸入,我們就不能一致地評估平均治療效果(θ)。

更糟糕的是,想象一下這種情況:健康的人往往服用維生素C,不健康的人則不會。在這種情況下,即使維生素C實際上對健康沒有任何影響,恐怕也會顯示強烈的治療效果。在此,先前的健康狀況被稱為影響維生素C攝入和健康狀況(X和Y)的混淆因素,這導致對估計的偏差。

產生的相合估計的最安全的方法是通過對治療進行隨機化實驗,使X獨立於Y。當隨機分配治療實驗時,未治療組結果的均值可以作為代表治療組的反事實結果的無偏值,並可以保證這樣做消除了混淆因素。A/B測試就以這個觀點為指導。但是隨機實驗並不總是可行的(甚至可能是不道德的,比如如果我們想要研究吸菸或吃太多巧克力餅乾對健康影響的話),在這些情況下,必須通過觀察常常是非隨機實驗的數據來評估因果效應。有許多統計技術通過構建反事實結果或模擬觀測數據中的隨機治療分配來識別非實驗環境中的因果效應,但可以想象,這些類型的分析結果往往不是非常穩健或可重複。更重要的是,這些方法的造成障礙的層面並不是為了提高模型的預測準確性而設計的,而是為了通過結合邏輯和統計推斷來提出因果關係的證據。

評價預測模型是否成功比因果模型要容易得多 ——預測模型有標準的性能度量,但評估因果模型的相對成功要困難得多。但即使因果推理很棘手,也並不意味著我們應該停止嘗試。預測模型和因果模型有著非常不同的目的,需要非常不同的數據和統計建模過程,通常這兩點同時發生。這一關於電影業的例子說明了這一點:電影製片廠使用預測模型來預測票房收入,以預測電影發行的票房結果,評估其電影放映組合的金融風險/回報等。但預測模型在理解電影市場的結構和動態併為投資決策提供信息方面不是很有用。這是因為在電影製作過程的早期階段(通常是發佈日期之前的好幾年),當做出投資決策時,可能的票房結果的方差非常高,因此基於早期階段輸入數據的預測模型的準確性要大為降低。預測模型在電影發行日期附近才是最準確的,然而這個時候絕大多數製作決策已經被制定,預測也就失去了行動指導力。另一方面,因果推理建模允許製片商瞭解到,不同的生產特徵如何影響生產過程早期階段的潛在收入,因此對於幫助制定其策略至關重要。

我們真的過分強調預測嘛?

從定量研究文獻的現狀來看,不難看出為什麼Chomsky感到不安 - 預測模型現在主導著學術界和業界。對學術預印本的文本分析發現,在增長最快的定量研究領域中,近十年來越來越關注預測。例如,在AI中,提及與“預測”相關的術語的論文數量增長了2倍以上,而提及與“推理”相關的術語的論文數量自2013年以來已經下降了一半。現今的數據科學課程在很大程度上忽略了因果推理方法,並且數據科學業界大多期望從業者專注於預測模型。即使像Kaggle和Netflix大獎賽這樣高調的數據科學競賽也總是專注於改進預測性能指標。

另一方面,仍有許多領域沒有對經驗預測給予足夠的重視,儘管它們可以從機器學習和預測建模方面的進步中受益。

但是,把目前的狀況描述為“Chomsky隊”和“Norvig隊”之間的文化戰爭似乎是一個錯誤的選擇 —— 誰說我們只能二選一的呢,在很多時候這兩種觀點會相互交流相互促進。

為了讓機器學習模型更易於理解,我們能做得還有很多。比方說,我對斯坦福大學Susan Athey在因果推理方法中應用機器學習技術的工作尤其感興趣。

拯救數據科學的“半貝葉斯人”

最後,我想以Judea Pearl的大作《The book of why》中的結論做結尾。Pearl曾於20世紀80年代領導了AI研究工作,以便讓機器可以使用貝葉斯網絡進行概率推理;但自那時起他便成為AI只關注概率關聯風氣的最大批評者,認為這樣會阻礙這個領域的發展進步。

與Chomsky的觀點相仿,Pearl認為“深度學習取得的所有璀璨成就僅僅相當於數據擬合曲線”,而直到今天AI仍在做與機器30年前就會做的同樣的事情(預測和診斷/分類),現在只是表現得稍好一點,但預測和診斷“僅僅是人類智慧的一角。”

他認為,製造真正的能像人類一樣思考的智能機器的關鍵,是教會機器思考因果關係,這樣機器就可以提出反事實問題、設計實驗,並找到科學問題的新答案。他過去三十年的工作重點是為機器建立形式語言,以便使因果推理成為可能;這類似於他在貝葉斯網絡上所做的工作,其能使機器建立概率關聯。

相關報道:

https://towardsdatascience.com/predicting-vs-explaining-69b516f90796

"

相關推薦

推薦中...