機器學習之決策樹Python實現

機器學習編程語言 Python 香農數據魔法盒數據魔法盒 2017-11-04

決策樹算法，正如其名一樣，是基於樹結構的一種算法。如果繪製成圖形，有點流程圖的模樣，節點示意邏輯判斷，枝幹表示不同的條件，按照數據的特徵值，沿著分枝一步一步的匹配類型，最終完成分類任務。

談及流程圖，不免聯想到傳統編程。它與機器學習編程有什麼區別呢？竊以為，傳統編程，從理論出發，使用流程控制語句實現理論描述，最終完成任務。而基於機器學習的編程，從數據出發，通過學習完善模型參數，最終通過模型完成任務。我想這是兩者最大的區別吧。

不管通過哪種方式構建決策樹。我們總想知道按照怎麼樣的順序，我們應如何劃分特徵，如何選擇邏輯判斷節點，才能使無序的數據變得有序，達到最優的計算效果。想要提高性能，必須先找到衡量方式。目前，一種通用有效的度量方法來自於信息論中的信息熵，該理論源自二十世紀最聰明的人之一：克勞德·香農。有一段有意思的話介紹香農：“貝爾實驗室和MIT有很多人將香農和愛因斯坦相提並論，而其他人則認為這種對比是不公平的——對香農是不公平的”。既然這樣，這套理論令人費解也是正常，可以接受的，因此取名為“熵”這個術語。不用擔心，我們只要感性的知道，信息熵值越大，代表數據包含的信息量越多，我們需要更多的步驟才能得到分類結果，即更加枝繁葉茂的決策樹。我們當然希望越簡單越好，即每次劃分數據都是最優選擇，信息熵值最小。

我們以學習佩戴隱形眼鏡建議數據為例，構建決策樹並完成預測任務。

準備數據

隱形眼鏡數據集包含患者眼部狀況（特徵）以及醫生推薦的眼睛類型（標籤），我們使用pandas加載數據。

機器學習之決策樹Python實現

構建決策樹

我們使用信息熵來衡量數據，計算眼鏡類型labe的信息熵，選用信息熵更小的方式，也即做到了更有序的切分數據。

機器學習之決策樹Python實現

通過迭代比較，我們得到選用哪一列特徵值劃分數據集是最有效的方式。因此，我們能據此構建決策樹。

機器學習之決策樹Python實現

決策樹可視化

基於字典的決策樹表示，不能給人以直觀的印象，我們使用matplotlib來可視化決策樹。

機器學習之決策樹Python實現

機器學習算法，幫我們構建了決策樹。相當於完成了訓練模型的步驟，這時，我們需要將模型保存下來，以供生產環境下使用。

序列化決策樹

我們使用pickle模塊完成序列化和反序列化的工作。

機器學習之決策樹Python實現

使用算法

完成了各項訓練和存儲工作，收穫的時候終於到了，我們使用決策樹算法完成預測分類任務。

機器學習之決策樹Python實現

結語

本期介紹了決策樹算法的基本概念，基於信息熵的方式構建決策樹。當然，決策樹算法發展至今，必然存在很多優化算法。同樣，我們選擇站在巨人的肩膀上，下期，我們來看一下sickit-learn對決策樹算法的支持。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'Java是什麼？為什麼要學習Java?Java有哪些特點？'

"在正式開始Java學習之前，先來了解幾個關鍵性問題。那就是什麼是Java，為什麼要學習Java，Java 有哪些特點，Java 有哪些機制，如何來學習 Java 等幾個問題。通過這幾個問題讓大家瞭解 Java 的一些內容，從而展開 Java 的學習。1、java是什麼？J...

Java Java虛擬機軟件程序員虛擬機操作系統編程語言網頁遊戲 NetBeans 集成開發環境 Eclipse 設計硬件瀏覽器 UNIX Android 工商銀行文本編輯器 Mac電腦技術中國建設銀行人生第一份工作銀行 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'30周Java學習計劃清單，分享神級教程帶你飛！確定不整一波？'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和JavaSE的學習同步，建議大家研究一下數據結構與算...

Java 算法數據結構程序員 Eclipse 人生第一份工作設計編程語言技術設計模式 Apache 讀書大數據小遊戲集成開發環境 2019-09-18

'Python什麼情況下會生成 pyc文件？通過pyc文件瞭解Python運行原理'

"由於最近一位同學在做分佈式計算時，部分模塊只把 pyc文件拷貝部署至遠程計算節點，導致主節點程序更新後，計算節點拋出了錯誤異常，於是有了這篇文章...示例如下，有兩個py模塊，testops.py 與 testops_imported.py模塊。我們先來看 testops...

Python 分佈式計算 2019-09-18

'用Python實現進制轉換，這一篇教程就夠了！這也太完美了'

"前言Python 實現進制轉換一、導言導語：在計算機進行數據交換時，常常會有一個進制轉換的過程，我們知道計算機只認0 和 1.在內存系統中，基本基於二進制進行運算的，但是有時候數據過於龐大，為了方便存儲管理，計算機會使用十六進制存儲數據，但是怎麼實現數據轉換呢？我們人類由...

Python 電腦 C語言腳本語言工程師迪吉多 2019-09-18

'投資10億，機器人造機器人！全球最大機器人工廠落戶上海'

"近日，由上海建工五建集團承建的ABB機器人未來工廠項目舉行了開工奠基儀式。建成後，該項目為ABB公司在全球範圍內最大、最先進、最具柔性的機器人工廠。該工廠預計將於2021年投入運營，總投資額達1.5億美元（約10億人民幣）。ABB機器人未來工廠項目舉行開工奠基儀式該工程由...

機器人上海技術上海建工集團機器學習跳槽那些事兒投資 2019-09-18

'用 Python 寫一個安卓 APP'

"作者：youerning來源：http://youerning.blog.51cto.com/10513771/1733534前言用 Python 寫安卓 APP 肯定不是最好的選擇，目前用Java和 kotlin 寫的居多，但是肯定也是一個很偷懶的選擇，而且實在不想學習...

Python Android Java Linux Windows 虛擬機 Google Apache VirtualBox iOS Kotlin GitHub 設計 VMware 電腦 2019-09-18

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'Python中的Lambda，Map和Filter'

"今天的部分介紹了在Python中使用lambda，map和filter函數。我們將介紹每個的基本語法，並通過一些示例來熟悉使用它們。讓我們開始吧！*** Lambda***lambda運算符或lambda函數用於在Python中創建小型的、一次性的匿名函數對象基本語法la...

Python Java 2019-09-17

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'8個用於業餘項目的優秀Python庫'

"這些庫可以使你更容易構架個人項目。在Python/Django的世界裡有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使得我們一直停留在Python的世界裡，不願離開，那就是我們可以很容易地利用一頓午餐或晚上幾個小時的時間，把一個想...

Python Django 數據庫 HTML XML 腳本語言 Java 機器學習搜索引擎編程語言 2019-09-16

'《What the f*ck Python!》那難以理解和反人類直覺的例子及原理'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言最近，發現了一個在GitHub關於Python的一個非常有趣的項目。這個項目叫《What t...

Python Calvin Klein JavaScript Stack Overflow 機器學習腳本語言 2019-09-16

'Python Requests作者另一神作，Records通用而優雅的數據庫訪問庫'

"我們在開發過程中經常涉及與數據庫進行交互，比如MySQL、Oracle、PostgreSQL、Sqlite，一般，我們使用其對應的Python 第三方模塊，實現相關數據庫操作，如下MySQL數據庫：mysql-connector，pymysql PostgreSQL數據庫...

數據庫 Python SQL MySQL HTML YAML PostgreSQL Excel 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'PyPy是Python解釋器的替代品，某些 Python 程序來說會快很多倍'

"歡迎各位小哥哥小姐姐閱讀本<小生>的文章,對大家學習有幫助,請點贊加關注哦!!!!!!!!!!您的點贊和關注將是我持續更新的動力呢.^v^有不懂的問題可以私聊我哦!前言Python因其強大、靈活且易於使用等特性，而贏得了聲譽。這些優點使其在各種各樣的應用程序、...

Python 技術彙編語言機器學習讀書 2019-09-16

'VBA 會被 Python 代替嗎？'

"VBA和Python都可以處理Excel，VBA和Python各有什麼優勢?有傳言說，微軟會使用Python來替代VBA處理Excel，真的會替代麼？在知乎上看到這篇文章，我覺得分析得挺對的，特轉載一下，內容有所刪減。來源：https://zhuanlan.zhihu.c...

Python Excel 電腦微軟 Word 跳槽那些事兒設計軟件技術 PowerShell 人生第一份工作歷史程序設計數據結構財會人工智能金融 2019-09-16

'Python中的Requests模塊，星號和括號'

"requests模塊官方地址：https://github.com/psf/requests官方文檔：https://2.python-requests.org/en/master/用於http請求的模塊，用於網頁數據抓取七個主要方法Python資源共享群：62601...

Python JSON 2019-09-16

推薦中...