機器學習筆記—生成學習

機器學習卡爾·高斯動物科技 Python愛好者社區 2017-05-24

目前我們主要介紹了建模 p(y|x;θ) 的學習算法，即關於給定 x 後 y 的條件分佈。例如，Logistic 迴歸把 p(y|x;θ) 建模為 hθ(x)=g(θθx)，其中 g 是 sigmoid 函數。本文將介紹一種不同類型的算法。

考慮一個分類問題，學習根據動物的特徵區分大象（y=1）和狗（y=0）。給定一個訓練集，像 Logistic 迴歸或者感知機這種算法會試圖找到一條直線，即決策邊界，把大象和狗區分開，然後，來一個新的動物，就可以根據它落在哪個邊界內，就屬於哪種動物。

有一種不同的方法，首先，看看大象，建立一個大象的特徵模型，再看看狗，建立一個狗的單獨模型。最後，來了新動物，就分別跟大象和狗的特徵比對，看跟哪個更像，就是哪個。

直接學習 p(y|x) 的算法（如 Logistic 迴歸），或者學習從輸入空間 X 到標籤 {0,1} 的映射的算法（如感知機算法），被稱為判別學習算法。本文我們介紹的算法是試圖建模 p(x|y) 和 p(y)，被稱為生成學習算法。例如，如果 y 表示一個數據是狗（0），或者大象（1），那麼 p(x|y=0) 就建模了狗的特徵分佈，p(x|y=1) 建模了大象的特徵分佈。

建模 p(y) 和 p(x|y) 後，我就能使用貝葉斯規則來導出後驗概率：

機器學習筆記—生成學習

其中，分母 p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0)。實際上，如果計算 p(y|x) 只是為了預測分類，那我們就不必計算分母。因為：

機器學習筆記—生成學習

生成學習是一種跟判別學習不同的算法。

1、高斯判別分析

有個分類問題，輸入特徵 x 是連續值的隨機向量，就可以用高斯判別分析（GDA）模型，即用多元正態分佈來建模 p(x|y)。

機器學習筆記—生成學習

寫出分佈為：

機器學習筆記—生成學習

這裡，模型參數是 Φ、Σ、μ0 和 μ1。（注意雖然有兩個均值，但通常方差矩陣都是一樣的）數據的 log 似然估計為：

機器學習筆記—生成學習

通過調整參數使該 log 似然函數最大化，參數的最大似然估計為：

機器學習筆記—生成學習

當有新數據時，只需計算 p(x|y)p(y) ，找到使其最大的 y 即完成分類。

機器學習筆記—生成學習

2、樸素貝葉斯

特性向量 x 的元素是離散值。

假設有一個訓練數據集，郵件集合，被標註為垃圾郵件和非垃圾郵件。我們要建一個郵件過濾器，根據郵件特徵來判斷是否垃圾郵件。

我們用特性向量來表示郵件，向量長度等於詞典中的單詞個數，如果一封郵件包含詞典的第 i 個單詞，那麼就設 xi=1，不然 xi=0。

樸素貝葉斯對條件概率分佈作了條件獨立性的假設，即給定 y 的條件下，xi 之間是條件獨立的。例如，如果 y=1 表示垃圾郵件，“buy” 是2087號單詞，“price”是39831號單詞。“buy”有沒有出現在郵件中，跟“price”有沒有出現在郵件中沒關係。記作：p(x2087|y)=p(x2087|y,x39831)。

機器學習筆記—生成學習

我們模型的參數是 Φi|y=1=p(xi=1|y=1)，Φi|y=0=p(xi=1|y=0)，跟之前一樣，給定訓練數據集 {(x(i),y(i));i=1,...,m}，數據的聯合分佈概率為：

機器學習筆記—生成學習

最大化該似然函數，Φy、Φi|y=1 和 Φi|y=0 的最大似然估計如下，求解過程可見參考資料2。

機器學習筆記—生成學習

當有新的數據時，就計算：

機器學習筆記—生成學習

然後選擇最高後驗概率的 y 值。

對於許多分類問題，上面的樸素貝葉斯已經能工作很好了，對於文本分類，還有一個相關的模型可以運行得更好。

在特定的文本分類情境下，上面介紹的樸素貝葉斯，使用的是多元伯努利事件模型，在這個模型中，郵件生成的方式是，首先根據先驗概率 p(y) 隨機決定是發垃圾郵件還是非垃圾郵件，然後再掃描詞典，根據後驗概率 p(xi=1|y)=Φi|y 決定是否包含單詞 i。所以，一條信息的概率為 p(y)∏ni=1p(xi|y)。

這裡介紹的不同的模型，被稱為多項式事件模型。這個模型使用了不同的標識和特徵集合來表示郵件。xi 表示郵件中的第 i 個單詞的標誌，所以，這裡的 xi 是個整數，取值 {1,...,|V|}，其中 |V| 是詞典大小。一個郵件的 n 個詞現在表示成一個 n 維的向量 {x1,x2,..,xn}，n 會隨著文件不同而變化。

在多項式事件模型中，假設生成一封郵件的方式，還是先根據先驗概率 p(y) 確定是否垃圾郵件，然後郵件寫作者根據後驗概率 p(x1|y) 的多項式分佈中選擇第一個詞 x1，然後從同一個分佈中選擇 x2，類似的 x3，x3 等等，直到郵件的所有 n 個詞生成。所以該信息的概率是 p(y)∏ni=1p(xi|y) ，形式跟多元伯努利事件模型的概率看起來一樣，但表達的含義已經不一樣了，xi|y 現在是一個多項式分佈，而不是伯努利分佈。

給定訓練數據集 {(x(i),y(i));i=1,...,m}，x(i)=(x1(i),x2(i),...,xni(i))，這裡 ni 表示訓練集中第 i 封郵件的單詞個數。數據的似然函數為：

機器學習筆記—生成學習

最大化該似然函數，參數的最大化似然估計為：

機器學習筆記—生成學習

在估計 Φk|y=1 和 Φk|y=0 時，如果要使用 Laplace 平滑，給分子加 1，分母加上 |V|。

機器學習筆記—生成學習

如果不是必需最好的分類算法，那樸素貝葉斯就非常好了，它通常是首選，因其簡單和易執行性。

問答環節：

（1）怎麼把一封郵件編程變成一個向量？

答：先定義個長度為 5000 的向量，初始化為 0，然後根據詞典來掃描郵件，假如詞典的詞彙量為 5000，掃描到郵件中有響應的單詞，則向量的該元素置為 1，一直到掃描完整封郵件，表示該郵件的向量即生成。該向量只記錄了郵件中出現了哪些單詞，而不管單詞出現的先後順序，及出現次數，也不用懂語法規則。

（2）建模 p(x|y) 時，樸素貝葉斯的條件獨立假設有什麼用？

機器學習筆記—生成學習

參考資料：

1、http://cs229.stanford.edu/notes/cs229-notes2.pdf

2、http://cs229.stanford.edu/materials/ps1.pdf

本文來自天善智能社區作者：瘋狂的拖鞋

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'投資10億，機器人造機器人！全球最大機器人工廠落戶上海'

"近日，由上海建工五建集團承建的ABB機器人未來工廠項目舉行了開工奠基儀式。建成後，該項目為ABB公司在全球範圍內最大、最先進、最具柔性的機器人工廠。該工廠預計將於2021年投入運營，總投資額達1.5億美元（約10億人民幣）。ABB機器人未來工廠項目舉行開工奠基儀式該工程由...

機器人上海技術上海建工集團機器學習跳槽那些事兒投資 2019-09-18

'《非暴力溝通繪本》用孩子能懂的語言，教孩子學習非暴力溝通'

" 用孩子能懂的語言，教孩子學習非暴力的溝通模式，良好的情緒與高情商是給孩子最好的傳承~孩子的教育一直是讓家長最頭疼的問題，昨天就有位媽媽和我說：現在拿孩子一點辦法都沒有，什麼都要和你對著幹，自己忍不住發火，吼叫怒罵孩子。但孩子照樣本性不改!這位媽媽的情況，相信很多家長都感...

不完美媽媽長頸鹿狐狸動物大猩猩讓夢發生音樂盧森堡大公國雞馴鹿文化兔子山羊 2019-09-17

'學習不好的根本願意在於思維定勢，幫助孩子打破，突破學習瓶頸'

"在生活中最有創意的往往是最成功的，能夠突破定式思維是大人們最難做到的一件事，年紀越大就越容易按照固有的想法去思考問題，很難接受新鮮事物。對於孩子來說，很多事情都是他們沒看過沒見過的，所以思維還停留在塑造期，但是隨著孩子年齡的增加，久而久之就容易形成一種思維慣性，這些慣性其...

不完美媽媽童話植物動畫動物 2019-09-17

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'孩子被小區狗狗咬住褲腿不放，奶奶的做法，值得父母學習'

"純屬原創，版權歸本作者所有，歡迎個人轉發分享現如今隨著人們的生活水平越來越高，很多人都會選擇在家中養寵物，狗狗溫順可愛，成為很多人的首選。每個小區樓下經常能看見一些主人帶著自家的狗狗出來散步，不過隨著寵物狗數目的增多，狗狗攻擊人的事件也頻頻發生，這也是很難避免的。前幾天小...

不完美媽媽狗動物 2019-09-16

'小區狗狗咬住孩子褲腿不放，奶奶急中生智巧救娃，這一招值得學習'

"現在小區裡養狗狗的人越來越多，有些愛狗人士帶著愛犬出來遛彎的時候，都會拴繩子，可是有些人帶著狗狗出來散步，就任由狗狗隨便亂跑，如果主人來不及喝止，狗狗傷人就在所難免，尤其是孩子，見到小狗特別喜歡，就喜歡上前逗著玩，如果狗狗此時咬住孩子，要怎麼辦呢？在我媽媽的小區，就發生了...

不完美媽媽狗動物農村 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'「NLP」如何系統性的學習NLP，有三AI-NLP知識星球等你來'

"文 | 小Dream哥編輯 | 言有三星球開設的必要性時間過的很快，轉眼在有三AI開設NLP專欄已經2個月了。是時候總結下了，我們的NLP專欄按計劃更新了NLP中用的常用的機器學習模型，深度學習特徵抽取器從RNN講到了Transformer，馬上就要更新BERT。基本上聊...

人工智能機器人技術電腦工程師機器學習讀書 2019-09-15

'大腦的“惰性”決定孩子本身就不愛學習，別錯怪孩子，要這樣引導'

"文章純屬原創，版權歸本作者所有，歡迎個人轉發分享。前兩天好友芝芝打電話給我，自從成為家庭主婦的我們很少再有一起出門逛街的時間，聊天的話題也總是不離孩子。芝芝的孩子小圓已經上小學三年級了。芝芝跟我抱怨說，小學的作業就很多，小圓每次放學回到家都不想學習，一回家就開電視，總是要...

不完美媽媽葫蘆魔法少女小圓射箭發現佩奇古詩英語人生第一份工作軟件動物 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'日漸稀少的土耳其浴室，曾紅遍亞非歐，日本澡堂也向它學習'

"土耳其浴室被稱為Hamam，作為傳統的的公共浴池，Hamam曾經遍佈土耳其、阿塞拜疆、中東的阿拉伯各國、中亞、東亞甚至是歐洲各國。Hamam建築外觀優美，內部結構嚴謹、華麗，用材考究、排水系統和熱效率循環精心設計，注重導入自然光和自然空氣循環，因此在世界建築史上有很高的評...

土耳其羅馬建築推拿壁畫伊斯蘭教日本伊斯坦布爾歷史阿塞拜疆巴基斯坦設計天花巴黎歐洲文化環境保護我在宮裡做廚師藝術古蘭經動物 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'看書、跑步、學習、自律不僅是一種生活，還是一種態度'

"自律其實已是一個老生常談的話題，很多人都在這條路上追逐著，想要藉此獲得不一樣的人生。問題在於：有的人能一口氣走到天亮，而有的人走著走著就完全沒了影。同樣擁有惰性，同樣的起點，為什麼人與人之間的差距那麼大呢？01 憋一口氣的追求與堅持謝雨（化名）是我的高中同學，全班最努力的...

跑步讀書何潔的瘦身花路體育軟件關愛吃貨成長協會動物高考 2019-09-14

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'都應該瞭解的Python函數式編程+2019最新python學習資料分享'

"文末小編整理了2019最新流出的python400集學習資料希望對大家有幫助謝謝“ 函數式編程（Functional Programming）或者函數程序設計，是一種編程範型。”它將計算機運算視為數學上的函數運算，並且避免使用程序狀態以及變量對象。以上只是簡單的函數式編程...

Python 泛函編程編程範型 Linux C語言機器學習程序設計 2019-09-13

推薦中...