極簡讀懂機器學習算法思維（續）

機器學習隨機森林命理科技極數蝸牛 2017-04-02

本內容是《極簡讀懂機器學習算法思維》第二篇，依然是無代碼，無公式幫你理解各機器學習算法思路邏輯。

（6）主成分分析

經常在網上看到兩個字“乾貨”。那怎麼定義“乾貨”，我覺得應該包括兩方面：一是信息量大，二是沒有廢話。其實如何將“水貨”製作成乾貨的過程，與主成分分析有異曲同工之妙。“乾貨”能夠使原文到達“短小精悍”，而主成分分析能夠實現數據集降維，即用較少維度表示原有樣本含有的信息，兩則都是通過其它語言或轉變維度來表達原有信息。

“水貨”變成“乾貨”就是將意思相近或相似的句子進行濃縮或提煉，也就是將“水貨”裡的的水分擰乾；而主成分分析是根據樣本集的協方差矩陣，通過線性變換將原數據映射到新的座標系統，並將差異性較大特徵值的保留，以到達降維目的。

（7）隨機森林

“三個臭皮匠賽過諸葛亮”與隨機森林算法內核類似。隨機森林是是由一棵棵的決策樹構成的，每決策樹的形成都是隨機的，它可以避免單一決策樹過擬合和偏向的毛病。

再以相親為例，對相親對象要求，你可能看重“有房”“有車”“有錢”；你媽看重“有房”“孝順”；你爸看重“事業”“顧家”“有車”等。其實你們每個人都是一個決策樹，可根據自己判斷標準決策出相親對手是否“滿意”，最後集合每個人的決策結果，來判斷最後是否相親成功。一個人相親是決策樹，全家人相親就是隨機森林。

極簡讀懂機器學習算法思維（續）

相親隨機森林

（8）最大熵模型

“不要把雞蛋放在一個籃子裡”是最大熵模型比較樸素的說法，也反映了該算法的本質，就是對不確定的或未知的，儘量保持隨機和均勻分佈，能夠將風險降到最低。其實在生活中大家應該都不自覺的應用了該模型。比如，去年P2P較火的時候，很多人被其高收益吸引，但由於P2P魚龍混雜，又擔心跑路；因此採取比較保險的舉措，就是多投幾家公司。

其實，熵是對無序狀態的描述，而最大熵就是表示樣本是均勻分佈，可能性概率相同。

（9）AdaBoost

在學生時代，考試有個技巧就是構建自己的“錯題本”，每次考試前都加強對“錯題本”學習，通過不斷強化“錯題本”上題目，最終可能獲得較高分數。其實這個學習過程與AdaBoost是算法邏輯是相同的。

假設每次考試作為一次模型訓練，每道題目作為一個樣本，分數作為預測準確率，而“錯題本”就是預測錯誤的樣本；當再次進行預測訓練考試的時候，AdaBoost算法策略就是會對上次預測“錯誤的樣本”加大權重，並以此不斷迭代，通過多次訓練，最後能夠組合成一個較強的分類器（即考試高分）。

（10）關聯規則

是否耳熟“我看你天賦異稟、骨骼驚奇，想來是百年難得一見的練武奇才”“貧道夜觀天象，發現北斗星南移，天狼星耀青光，帝王星顯現”等臺詞。其實這裡邊就蘊含了關聯規則，通過經驗積累發現骨骼與練武，北斗星與帝王等之間關聯。

“用生辰八字來算命”雖然被成為偽科學，但偶爾能算準，這是這麼回事？用關聯規則算法就容易解釋，首先理解兩個概念支持度和置信度。

支持度是指A（某生辰八字）和B（某命運）同時發生的佔比，如某生辰對應某命運的人數佔總人數比值；置信度是指A發生後B發生的概率，如某生辰中當官的人數/某生辰總人數。如果置信度是100%，如果A發生，那麼B一定發生。算命先生就將生辰和命運的置信度定為100%。

如果算命先生學過機器學習算法，就不會很肯定指出你將來一定當官，而是說你將來當官的支持度為20%，置信度為30%。

喜歡請關注頭條號：極數蝸牛。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'5分鐘內看懂機器學習和深度學習的區別'

"在本文中，我們將研究深度學習和機器學習之間的差異。我們將逐一瞭解它們，然後討論他們在各個方面的不同之處。除了深度學習和機器學習的比較外，我們還將研究他們未來的趨勢和走向。深度學習 VS 機器學習深度學習與機器學習簡介一、什麼是機器學習？通常，為了實現人工智能，我們使用機器...

人工智能算法自然語言處理技術信息檢索 GPU 人生第一份工作市場營銷隨機森林 2019-09-09

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'對話Swami：為什麼數萬個客戶選擇AWS實施機器學習？'

"作者|小葳8月底，以“智聯世界無限可能”為主題的2019世界人工智能大會（WAIC）成為科技界最受關注的盛會。AI應用落地成為今年WAIC的最大亮點之一。目前，中國人工智能產業正進入落地實踐階段。據相關機構測算，到2020年我國人工智能產業規模有望突破1600億元，帶動...

機器學習 2019世界人工智能大會 Amazon EC2 技術大數據亞馬遜公司虛擬機設計雲計算工程師算法無人駕駛 NoSQL 數據庫 SaaS 2019-09-08

'學習Python細分化為這12個階段，各階段思維導圖助你輕鬆學Python'

"分12個階段學習Python，各個階段思維導圖奉上，這樣你還學不會？學習Python細分化為這12個階段，各階段思維導圖助你輕鬆學Python：1.Python 解釋器：2.Python數據結構：3.變量與運算符：4.Python 流程控制：5.Python 文件處理：6...

Python 工程師機器學習 2019-09-08

'數據科學家不可不知的10種機器學習方法'

"作者 | CDA數據分析師10 machine learning methods that every data scientist should know機器學習是研究和工業中的熱門話題，新方法一直在發展。該領域的速度和複雜性使得即使對於專家而言也難以跟上新技術 - 並...

機器學習算法技術可視化技術人工智能數學隨機森林貨車建築 2019-09-07

'最新版《機器學習數學基礎》發佈，417頁PDF免費下載'

"【新智元導讀】《機器學習數學基礎》最新版 417 頁 pdf 版本已經放出，本書旨在激勵人們學習數學概念，包括數學基礎知識和使用數學基礎知識進行機器學習算法示例兩部分，值得收藏學習！由 Marc Peter Deisenroth，A Aldo Faisal 和 Cheng...

機器學習數學算法讀書歷史物理設計技術大學編程語言高中數學收藏 2019-09-07

'今天的內容你可能看不懂，全是關於AI算法的終極討論'

"人工智能下一站是哪裡？深度學習還能紅多久？全球最頂尖的科學家，共論AI的未來。他們的眼光，越過當下，落在那個AI與人類共存的未來。數據、算法、算力，人工智能三要素。如果說數據和算力是必要條件，決定了AI的過去，那麼算法作為“靈魂”，定義了AI的未來。自人工智能概念被提出6...

人工智能算法深度學習機器學習電腦技術加拿大周志華語音識別技術大學卡內基梅隆大學讀書高能小子終極裝備人生第一份工作 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'全棧工程師必備的進階教材：Python+數據分析+機器學習全套無償送'

"全棧工程師是指掌握多種技能，並能利用多種技能獨立完成產品的人。也叫全端工程師(同時具備前端和後臺能力)，英文Full Stack developer。什麼樣的人適合學習“ Python全棧 ”？一、零基礎、邏輯思維能力強如果你認為自己的邏輯思維能力很強，想通過學一門技術來...

Python 工程師機器學習數據庫技術人工智能物理數學編程語言大學 Linux 跳槽那些事兒彙編語言網絡爬蟲 SQL 英語大數據物聯網 2019-09-06

'每個數據科學家都應該知道的10種機器學習方法'

機器學習算法技術可視化技術人工智能數學貨車隨機森林建築 2019-09-06

'想要快速掌握Python核心技術，這四張思維導圖幫助你，附學習教程'

"大四學生一枚，準備求職Python的工作，首先就拜讀了Python凡夢的《零基礎學Python思維導圖》入門和進階的思維導圖，並把他們分成了四大方向，這個思維導圖很實用，每個點都很到位，教授的多是一些實用的、具體的方法，對於運營小白來說是不可多得的入門級神器。Pytho...

Python 技術機器學習工程師跳槽那些事兒網絡爬蟲人工智能文章 2019-09-05

推薦中...