極簡讀懂機器學習算法思維(續)

機器學習 隨機森林 命理 科技 極數蝸牛 2017-04-02

本內容是《極簡讀懂機器學習算法思維》第二篇,依然是無代碼,無公式幫你理解各機器學習算法思路邏輯。

(6)主成分分析

經常在網上看到兩個字“乾貨”。那怎麼定義“乾貨”,我覺得應該包括兩方面:一是信息量大,二是沒有廢話。其實如何將“水貨”製作成乾貨的過程,與主成分分析有異曲同工之妙。“乾貨”能夠使原文到達“短小精悍”,而主成分分析能夠實現數據集降維,即用較少維度表示原有樣本含有的信息,兩則都是通過其它語言或轉變維度來表達原有信息。

“水貨”變成“乾貨”就是將意思相近或相似的句子進行濃縮或提煉,也就是將“水貨”裡的的水分擰乾;而主成分分析是根據樣本集的協方差矩陣,通過線性變換將原數據映射到新的座標系統,並將差異性較大特徵值的保留,以到達降維目的。

(7)隨機森林

“三個臭皮匠賽過諸葛亮”與隨機森林算法內核類似。隨機森林是是由一棵棵的決策樹構成的,每決策樹的形成都是隨機的,它可以避免單一決策樹過擬合和偏向的毛病。

再以相親為例,對相親對象要求,你可能看重“有房”“有車”“有錢”;你媽看重“有房”“孝順”;你爸看重“事業”“顧家”“有車”等。其實你們每個人都是一個決策樹,可根據自己判斷標準決策出相親對手是否“滿意”,最後集合每個人的決策結果,來判斷最後是否相親成功。一個人相親是決策樹,全家人相親就是隨機森林。

極簡讀懂機器學習算法思維(續)

相親隨機森林

(8)最大熵模型

“不要把雞蛋放在一個籃子裡”是最大熵模型比較樸素的說法,也反映了該算法的本質,就是對不確定的或未知的,儘量保持隨機和均勻分佈,能夠將風險降到最低。其實在生活中大家應該都不自覺的應用了該模型。比如,去年P2P較火的時候,很多人被其高收益吸引,但由於P2P魚龍混雜,又擔心跑路;因此採取比較保險的舉措,就是多投幾家公司。

其實,熵是對無序狀態的描述,而最大熵就是表示樣本是均勻分佈,可能性概率相同。

(9)AdaBoost

在學生時代,考試有個技巧就是構建自己的“錯題本”,每次考試前都加強對“錯題本”學習,通過不斷強化“錯題本”上題目,最終可能獲得較高分數。其實這個學習過程與AdaBoost是算法邏輯是相同的。

假設每次考試作為一次模型訓練,每道題目作為一個樣本,分數作為預測準確率,而“錯題本”就是預測錯誤的樣本;當再次進行預測訓練考試的時候,AdaBoost算法策略就是會對上次預測“錯誤的樣本”加大權重,並以此不斷迭代,通過多次訓練,最後能夠組合成一個較強的分類器(即考試高分)。

(10)關聯規則

是否耳熟“我看你天賦異稟、骨骼驚奇,想來是百年難得一見的練武奇才”“貧道夜觀天象,發現北斗星南移,天狼星耀青光,帝王星顯現”等臺詞。其實這裡邊就蘊含了關聯規則,通過經驗積累發現骨骼與練武,北斗星與帝王等之間關聯。

“用生辰八字來算命”雖然被成為偽科學,但偶爾能算準,這是這麼回事?用關聯規則算法就容易解釋,首先理解兩個概念支持度和置信度。

支持度是指A(某生辰八字)和B(某命運)同時發生的佔比,如某生辰對應某命運的人數佔總人數比值;置信度是指A發生後B發生的概率,如某生辰中當官的人數/某生辰總人數。如果置信度是100%,如果A發生,那麼B一定發生。算命先生就將生辰和命運的置信度定為100%。

如果算命先生學過機器學習算法,就不會很肯定指出你將來一定當官,而是說你將來當官的支持度為20%,置信度為30%。

喜歡請關注頭條號:極數蝸牛。

相關推薦

推薦中...