本文主要講述貝葉斯分類算法並附有詳細的案例幫助大家理解。
分類分析
分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函數或分類模型。分類模型能很好的擬合訓練樣本集中屬性集與類別之間的關係,也可以預測一個新樣本屬於哪一類。
第二章到第四章講的聚類分析是不知道數據點的類別標籤,需要自己自動分出類來,簡單說就是一堆東西混到一起了,你要把它們區分開來誰和誰是一類的。
分類分析是本身已經知道每個數據點屬於哪個類,它的任務是找到最佳的分類方法,也就是在這種分類方法下分類的分類效果是最佳的,比如,分類錯誤發生的概率最小,或在最小風險下進行分類決策等。
貝葉斯概率—主觀概率
貝葉斯方法是一種研究不確定性的推理方法。不確定性常用貝葉斯概率表示,它是一種主觀概率。通常的經典概率代表事件的物理特性,是不隨人意識變化的客觀存在,而貝葉斯則是人的認識,是個人主觀的估計,隨個人主觀認識的變化而變化。例如,一個投資者認為“購買某種股票能獲得高收益”的概率是0.6,這裡的0.6是投資者根據自己多年股票生意經驗和當時股票行情綜合而成的個人信念。
貝葉斯概率是主觀的,對其估計取決於先驗知識的正確和後驗知識的豐富和準確。因此貝葉斯概率常常可能隨個人掌握信息的不同而發生變化。
概率基礎知識
關於概率方面的更多詳細知識,可以查看作者之前的一篇文章《想要學人工智能,你必須得先懂點統計學(3)概率與概率分佈》。
聯合概率:設A,B是兩個隨機事件,A和B同時發生的概率稱為聯合概率,記為:P(AB)
條件概率:在B事件發生的條件下,A事件發生的概率稱為條件概率,記為:P(A|B),P(A|B) = P(AB) / P(B)
乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)
先驗概率 P(wi)
由樣本的先驗知識得到先驗概率,可從訓練集樣本中估算出來。之所以稱為“先驗”是因為它不考慮任何其他方面的因素。
例如,兩類10個訓練樣本,屬於w1為2個,屬於w2為8個,則先驗概率P(w1) = 0.2,P(w2) = 0.8。
類條件概率 p(x|wi)
在wi類發生的條件下,樣本x出現的概率。
後驗概率P(wi|x)
對於某個樣本 x, 屬於wi 類的概率, i=1,···,c。
如果用先驗概率P(wi) 來確定待分樣本x的類別, 依據顯然是非常不充分的,須用類條件概率密度p(x|wi)來修正。
根據樣本 x 的先驗概率和類條件概率密度函數p(x|wi) 用Bayes公式重新修正模式樣本所屬類的概率,稱為後驗概率P(wi|x)
Bayes 決策理論
用Bayes決策理論分類時要求:
各類總體的概率分佈是已知的
要決策的類別數c是一定的
Bayes公式,也稱Bayes法則
Bayes分類規則:用後驗概率分類
貝葉斯分類案例
計算先驗概率和類條件概率
計算後驗概率
因為P(是|X)>P(否|X),由此可見,對於樣本X,樸素貝葉斯分類預測該顧客會購買汽車。