每天一算法——決策樹之ID3算法

機器學習 GitHub 科技極客碼農 2017-05-02

決策樹是什麼？

決策樹是依據現有的訓練數據，而建立的一種預測模型。通俗來說，決策樹就是讓我們對事件作出決策的一棵樹。

現實生活中可能出現這樣的場景——媒人要給女孩介紹對象。那可能出現如下對話：

女孩：這個男的多大了？
媒人：25。

女孩：長得好看嗎？
媒人：挺帥的。
女孩：每個月收入高不高？
媒人：還不錯，挺高的。
女孩：他是公務員嗎？
媒人：是啊，在國稅局上班。
女孩：好的，我可以去見見。

上面的對話內容，女孩根據自己的要求，提出問題，這是很典型的一個決策。通過對年紀、外表、收入水平和是否公務員對男人作出決策：見和不見。

假設現在這個女孩對男人有如下要求：

1、年齡在30歲以下
2、長相至少在中等以上
3、高收入或者中等以上的公務員

我們就可以用下圖來表示女孩的決策邏輯：

每天一算法——決策樹之ID3算法

這個圖基本上是一個決策樹，說是“基本上”，假如可以把一些條件量化，例如收入、長相，那就是真正的決策樹了。

決策樹的通常用在分類上，例如上面的見與不見，是對男人的兩種分類結果。

決策樹具體實例

每天一算法——決策樹之ID3算法

上表天氣預報數據表，屬性outlook、temperature、humidity、windy分別為天氣、溫度、溼度、是否有風，play為是否出去遊玩。

我們想要根據這個訓練數據，構建我們的決策樹模型。然後根據模型，當我們給出overcast(陰天)、cool(冷)、normal(氣溫正常)、true(有風)的情況時，我們對其是否出去遊玩做出我們的預測。

決策樹的構建

對比女孩的決策樹，這裡我們同樣需要為我們的天氣預測構建一個決策樹，我們的屬性有outlook、temperature、humidity、windy。我們屬性的選擇進行排序很重要，我們希望的是作為第一個屬性的決策，可以很大程度的區分開是否去遊玩。

這裡的很大程度我們用純度來表示，一個屬性如果越“純”，說明這個屬性越能區分開分類結果。屬性純度的計算有多種算法，今天我們要講的就是其中一種——ID3算法。

ID3算法

這裡我們需要有一點信息論的知識，具體看《信息的度量——信息熵》。在信息論中，信息增益越大，純度就越高。信息增益是針對每個特徵（指屬性，例如溫度）而言，系統有這個特徵和沒這個特徵時，兩者的差值所帶來的信息量，即信息增益。

ID3算法的原理就是以信息增益來度量特徵，選擇信息增益最大的特徵進行分裂。算法有點類似貪婪算法，每次選擇都選擇信息增益最大。

在信息熵的文章中，我們講了信息熵的計算公式。這裡我們還需要用到條件熵，即在某種特徵情況下的信息熵。這裡我們結合信息熵，對兩個公式重新給下定義：

每天一算法——決策樹之ID3算法

數學公式大家有興趣自己推到，反覆推敲就好。我這裡再解釋下幾個概念的含義：

自信息量I(Xi)即為Xi事件發生所帶來的信息量大小。
信息熵H(X)即為X事件的平均信息量，同樣可解釋成對信息量的期望值。
條件熵H(X|Y)為在條件變量Y發生的情況下，X事件的信息熵。

信息增益上面解釋過，為具體某個特徵下信息熵的差值，我們成為信息增益。公式如下：

ID3算法，即遍歷所有的特徵屬性（天氣、溫度、溼度等），每次取出最大信息增益，然後生成一顆決策樹，此樹可對數據做出預測。

實際代碼

我接觸這個算法也是研究了很久，需要很多基礎知識，很多東西我也是一知半解。不過我也盡力把他搞懂，並用大白話把他解釋清楚，不過具體公式的地方，還是跑不了的。

下面我們結合上面天氣的數據，預測是否出去遊玩，寫出我們的實際代碼(用Python實現)。

首先看下我們的測試數據——數據文件trainning_data.csv

每天一算法——決策樹之ID3算法

我們把函數定義都放在DecisionTree.py中，

每天一算法——決策樹之ID3算法

構建決策樹函數：

每天一算法——決策樹之ID3算法

我發現代碼多了很不好整理，就給大家貼了幾個關鍵性函數，大家如果非常感興趣。我可以提交到Github上，分享給大家。

後面看下對天氣數據進行構建決策樹後的結果：

每天一算法——決策樹之ID3算法

可以看到，算法只對outlook、humidity、windy這幾個屬性進行決策，說明在這次數據中，其他屬性對分類的結果沒有影響。

決策樹是我個人對機器學習算法的一個入門，我整理了很久，這樣講不知道效果好不好。希望大家能給我一個回饋，謝謝大家的支持。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

"GitHub C++項目推薦|A step-by-step guide on how to implement SSAO depth of field lighting normal mapping and more for your 3D game.有關如何為 3D 遊...

GitHub 程序員讀書 2019-09-16

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'蘋果A13芯片參數：85億個晶體管每秒可1萬億次運算'

"相關新聞：直播2019年蘋果發佈會(英文原聲+中文字幕)蘋果2019年秋季新品發佈會：談色彩致創新新浪科技訊北京時間9月11日凌晨消息，蘋果2019秋季發佈會今日凌晨舉行，蘋果發佈的三款新一代iPhone搭載了A13仿生芯片。A13仿生芯片為64位架構，採用7納米制...

iPhone 中央處理器機器學習蘋果公司 GPU 華為公司人工智能天貓智能手機增強現實我的第一部5G手機 Google 三星集團史蒂夫·喬布斯新浪數學 Android 創作者來直播 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'軟件可優化AI算力'

"原創： ZOL企業站今天第705期軟件可優化AI算力文 | 陳楊文字校對 | 陳楊審核 | 李諾張劍鋒策劃 | 劉克麗跑車要想實現高速行駛，除了配備強勁的發動機外，還需要底盤、車身、電氣設備的共同配合。AI算力亦如此，要想實現AI算力的提升，除了靠CPU、GPU等...

人工智能軟件中央處理器硬件算法機器學習深度學習 GPU 英特爾編譯器 Xeon 中關村在線數學 2019-09-14

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'「雜談」什麼是我心目中深度學習算法工程師的標準'

"有三AI平臺只專心做原創輸出很少扯淡也不蹭熱點，不過最近詢問的朋友多了，不得不統一寫篇文章來回答一下這個大家都很關心的問題，當然，這僅僅是個人觀點。作者&編輯 | 言有三目前利用深度學習這個工具可以做很多事情，各大領域(圖像，語音，NLP等)，各大行業(娛樂，金融...

人工智能算法工程師人生第一份工作 Python 招聘文章技術設計金融不完美媽媽 C語言 GitHub 數學麻將大眾汽車 Linux 2019-09-11

'將門好聲音 | 安全生產重於泰山！基於能量函數的安全控制算法'

"內容來自將門機器人控制規劃社群From: CMU Intelligent Control Lab作者：魏天昊；編輯：T.R.本文為新欄目——將門好聲音第8期。作者是來自將門機器人控制規劃社群的群友、即將到CMU Intelligent Control Lab深造的魏天昊。...

算法機器人中國好聲音數學設計 GitHub 人工智能無人駕駛讀書 2019-09-11

'美國政府發佈“2021財年研發預算優先事項”備忘錄'

"科技戰略美國政府發佈“2021財年研發預算優先事項”備忘錄據美國社會科學聯盟官網9月3日消息，美國白宮管理和預算辦公室（OMB）與白宮科技政策辦公室（OSTP）共同發佈“2021財年國防預算研發優先事項”備忘錄。備忘錄指出研發領域的五個優先事項：國家安全、未來工業領導力、...

量子計算理論華為公司英特爾 IBM 人工智能 Facebook 超級計算機技術跳槽那些事兒 EMC 網絡安全原汁原味的德系SUV 約翰·霍普金斯大學戴爾軟件機器學習電腦大學宇宙大數據柏林法律人生第一份工作 TechCrunch 約翰·霍普金斯 2019-09-10

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'你可能還是低估了雲計算的力量......'

"導讀雲計算就好比自來水的供應模式，IT用戶不需要建造自己的機房，不需要機房維護人員，也不需要購買服務器等設備，就能輕鬆獲取計算資源。然而，如果你只把雲看作一種按需使用計算資源的模式，那你可能還是低估了雲的力量！當我們使用自來水的時候，沒有必要在家自建一座水廠，而是擰開水...

雲計算物聯網美國股市機器學習經濟技術標準普爾投資硬件虛擬現實跳槽那些事兒增強現實人生第一份工作 2019-09-07

'今天的內容你可能看不懂，全是關於AI算法的終極討論'

"人工智能下一站是哪裡？深度學習還能紅多久？全球最頂尖的科學家，共論AI的未來。他們的眼光，越過當下，落在那個AI與人類共存的未來。數據、算法、算力，人工智能三要素。如果說數據和算力是必要條件，決定了AI的過去，那麼算法作為“靈魂”，定義了AI的未來。自人工智能概念被提出6...

人工智能算法深度學習機器學習電腦技術加拿大周志華語音識別技術大學卡內基梅隆大學讀書高能小子終極裝備人生第一份工作 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'先進計算怎樣才能稱得上為“先進”？'

"隨著社會經濟的高速發展，先進計算不僅在天氣預報，生命科學等諸多前沿領域的應用日趨廣泛，在未來智慧城市，物聯網，雲計算，大數據等領域也將不斷開疆拓土。可以說，各種結構化和非結構化數據的爆發，使得先進計算獲得了英雄用武之地。那麼，何謂先進計算，隨著5G和邊緣的落地，對先進計算...

雲計算技術十三五機器學習我的第一部5G手機量子計算理論人工智能物聯網中科曙光深度學習無人駕駛經濟大數據 GPU 2019-09-04

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'Python中循環操作和Numpy數組運算性能優化——Numba使用介紹'

"直到遇到Numba，才知道“一行代碼讓Python的運行速度提高100倍” 的論調，並不是譁眾取寵。Numba Numba最初是由Continuum Analytics內部開發，此公司也開發了著名的Anaconda，但現在它是開源的。Numba是Python的即時編譯器...

Python Linux GitHub Fortran Continuum GPU 中央處理器 ARM 數值算法 Windows 編譯器超微半導體 LLVM 2019-09-03

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'重磅！中科院計算所開源SeetaFace2人臉識別算法'

"開源最前線（ID：OpenSourceTop）猿妹綜合整理綜合自：中科視拓訂閱號、https://github.com/seetafaceengine/SeetaFace2近日，來自中科院計算所的人工智能國家隊中科視拓宣佈，開源商用級SeetaFace2人臉識別算法。短...

人臉識別腳本語言 Linux 算法 Android Windows GitHub X86 GCC ARM 人工智能 Bash 2019-08-26

推薦中...