常用數據挖掘算法從入門到精通第九章 CART決策樹分類算法

機器學習數據挖掘科技小AI諮詢小AI諮詢 2017-08-28

前面兩篇文章給大家介紹了ID3和C4.5決策樹分類算法，今天給大家介紹CART決策樹分類算法。

CART算法簡介（Classification And Regression Tree）

CART同樣由特徵選擇、樹的生成及剪枝組成，即可以用於分類也可以用於迴歸
CART假設決策樹是二叉樹，內部結點特徵的取值為“是”和“否。這樣的決策樹等價於遞歸地二分每個特徵

二叉樹不易產生數據碎片，精確度往往也會高於多叉樹，所以在CART算法中，採用了二元劃分

CART與前面介紹的ID3算法和C4.5算法不同的是，使用的屬性度量標準是Gini指標

Gini指數

Gini指數主要是度量數據劃分或訓練數據集D的不純度為主，Gini值越小，表明樣本的“純淨度”越高

常用數據挖掘算法從入門到精通第九章 CART決策樹分類算法

Gini指數的定義和計算

對缺失值和連續屬性的處理

對缺失值的處理詳見《常用數據挖掘算法從入門到精通第八章 C4.5決策樹分類算法》中有介紹
對於離散值屬性，在算法中遞歸的選擇該屬性產生最小Gini指標的子集作為它的分裂子集
對於連續值屬性，必須考慮所有可能的劃分點。其策略類似於C4.5算法中介紹的方法，利用Gini指數最小原則，選擇劃分點

CART決策樹的算法步驟

創建根節點R
如果當前DataSet中的數據的類別相同，則標記R的類別標記為該類
如果決策樹高度大於alpha，則不再分解，標記R的類別classify(DataSet)
遞歸情況：

標記R的類別classify(DataSet)
從featureList中選擇屬性F（選擇Gini(DataSet, F)最小的屬性劃分，連續屬性參考C4.5的離散化過程(以Gini最小作為劃分標準)）
根據F，將DataSet做二元劃分DS_L 和 DS_R：

如果DS_L或DS_R為空，則不再分解
如果DS_L和DS_R都不為空，節點：

C_L= CART_classification(DS_L, featureList, alpha);

C_R= CART_classification(DS_R featureList, alpha)

將節點C_L和C_R添加為R的左右子節點

CART算法實例分析

CART算法和ID3算法以及C4.5算法的過程基本都是相同的，主要的區別就是在屬性選擇標準上CART算法採用Gini指數作為選擇標準，其他過程基本一樣，《第七章 ID3決策樹分類算法》和《第八章 C4.5決策樹分類算法》都給出了不同的案例和決策樹具體計算構建過程，感興趣的讀者可以參照本章前面給出的Gini指數的計算方法，將前面給出的案例算一算用以構建CART決策樹。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'今天的內容你可能看不懂，全是關於AI算法的終極討論'

"人工智能下一站是哪裡？深度學習還能紅多久？全球最頂尖的科學家，共論AI的未來。他們的眼光，越過當下，落在那個AI與人類共存的未來。數據、算法、算力，人工智能三要素。如果說數據和算力是必要條件，決定了AI的過去，那麼算法作為“靈魂”，定義了AI的未來。自人工智能概念被提出6...

人工智能算法深度學習機器學習電腦技術加拿大周志華語音識別技術大學卡內基梅隆大學讀書高能小子終極裝備人生第一份工作 2019-09-07

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'這應該是全網最全的 Python 算法集！（附415集全套教程分享）'

"本文較長，建議大家仔細閱讀！2019年最新python教程如果你處於想學python或者正在學習python，那麼你的python教程應該不少了吧，但是是最新的嗎？說不定你學的可能是兩年前人家就學過的內容，在這小編分享一波2019最新的python全套教程最後小編為大家準...

Python 算法腳本語言卡爾·高斯 GPS 讀書機器學習 GitHub 機器人工程師 2019-08-19

'機器學習10種經典算法的Python實現'

"廣義來說，有三種機器學習算法1、監督式學習工作機制：這個算法由一個目標變量或結果變量（或因變量）組成。這些變量由已知的一系列預示變量（自變量）預測而來。利用這一系列變量，我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續，直到模型在訓練數據上獲得期望的精...

算法機器學習 Python 隨機森林不完美媽媽 2019-08-18

'來！一起捋一捋機器學習分類算法'

"大數據文摘出品來源：builtin編譯：邢暢、劉兆娜、李雷、錢天培說起分類算法，相信學過機器學習的同學都能侃上一二。可是，你能夠如數家珍地說出所有常用的分類算法，以及他們的特徵、優缺點嗎？比如說，你可以快速地回答下面的問題麼:KNN算法的優缺點是什麼？Naive Baye...

算法機器學習大數據技術歐幾里得信用卡程序設計 2019-08-12

'GitHub標星2.6萬！Python算法新手入門大全'

"幾個印度小哥，在GitHub上建了一個各種Python算法的新手入門大全，現在標星已經超過2.6萬。這個項目主要包括兩部分內容：一是各種算法的基本原理講解，二是各種算法的代碼實現。傳送門在此：https://github.com/TheAlgorithms/Python簡...

Python 算法 GitHub 機器學習隨機森林 Scala Java 印度雞尾酒人工智能 2019-08-12

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'圖論與圖學習（二）：圖算法'

"選自towardsdatascience作者：Maël Fabien機器之心編譯參與：熊貓圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maë...

算法 Python 機器學習 GitHub 社交網絡 Neo4J 維基百科信息檢索文章 2019-08-07

'集成聚類系列（三）圖聚類算法詳解'

"圖聚類算法研究現狀聚類分析是一種常用的機器學習技術，它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性，不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法，圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比，圖聚類算法有些明顯的...

算法機器學習技術 2019-08-05

推薦中...

常用數據挖掘算法從入門到精通 第九章 CART決策樹分類算法

CART算法簡介（Classification And Regression Tree）

Gini指數

對缺失值和連續屬性的處理

CART決策樹的算法步驟

CART算法實例分析

相關推薦

常用數據挖掘算法從入門到精通第九章 CART決策樹分類算法