R語言數據挖掘實踐——Rattle模型評估案例實戰

數據挖掘機器學習 R語言隨機森林數據分析和挖掘數據分析和挖掘 2017-09-12

現在通過一個綜合實例，完整地講述模型的評估與選擇。

數據介紹

這個案例選擇的數據來源於Rattle程序包中關於審計的"audit.csv"數據集，在data選項中，單擊“Execute”，這時會彈出是否加載默認數據集的提示，點擊“是”，然後在“Filename”中選擇“audit.csv”文件，再單擊“Execute”，這時就將審計的數據集加載進來了。

R語言數據挖掘實踐——Rattle模型評估案例實戰

讀入數據後，切換至Explore選項，對數據集進行描述性分析，選擇“Summary”類型，單擊“Execute”。

R語言數據挖掘實踐——Rattle模型評估案例實戰

執行結果列出了數據集中所包含的變量，以及變量的最小值、最大值、中位數、眾數、均值、四分位數，對於定性變來那個，描述分析圖中列出了每個類別的數量。

模型建立

對數據進行了簡單分析之後，我們切換至Model選項，選擇Forest建立隨機森林模型，選擇參數，建立500棵決策樹，每一節點上利用的變量個數為3個，單擊“Execute”。

R語言數據挖掘實踐——Rattle模型評估案例實戰

從執行結果我們可以看到，隨機森林模型中含有1400個訓練集樣本，並利用隨機森林模型原理對缺失值進行插值。模型利用數據集中的TARGET-Adjusted為響應變量。

模型結果分析

對隨機森林模型的結果分析，主要有隨機森林的重要值分析、模型之間的混淆矩陣對比分析和模型之間的風險圖分析。

1、隨機森林重要值分析

隨機森林方法的一個重要特徵是能夠計算每個變量的重要值，Rattle提供兩種基本的重要值，一種是採用精度平均減少值作為度量標準，另一種是採用節點不純度的平均減少值作為度量標準。模型變量重要值的結果分析如下圖：

R語言數據挖掘實踐——Rattle模型評估案例實戰

按照第一種標準（MeanDecreaseAccuracy）分析，自變量Marital對於模型的預測能力是最重要的，自變量Income在第一種標準下僅僅屬於中等重要程度。然而在第二種判斷標準（MeanDecreaseGini）下，自變量Income對於模型的預測能力時非常重要的，而自變量Marital的重要性僅排在第二位。

2、不同模型之間的混淆矩陣對比情況

模型之間的混淆矩陣對比如下圖所示：

R語言數據挖掘實踐——Rattle模型評估案例實戰

從上圖中可以知道：

決策樹模型的預測誤差為（6+9）/（71+6+9+14）=15%，即將6%的真實結果為0的樣本錯誤地預測為1的類別，將9%的真實結果為1的樣本錯誤地預測為0的類別；
隨機森林模型的預測誤差為17%，即將7%的真實結果為0的樣本錯誤地預測為1的類別，將10%的真實結果為1的樣本錯誤地預測為0的類別；
支持向量機模型的預測誤差為17%，即將5%的真實結果為0的樣本錯誤地預測為1的類別，將12%的真實結果為1的樣本錯誤地預測為0的類別；
自適應選擇模型的預測誤差為18%，即將8%的真實結果為0的樣本錯誤地預測為1的類別，將10%的真實結果為1的樣本錯誤地預測為0的類別。

單純從預測模型的混淆矩陣進行分析可以發現，自適應選擇模型的預測能力最差，誤差高達18%，支持向量機模型以及隨機森林模型其次，預測誤差為17%，而預測能力較強的模型為決策樹模型，預測誤差為15%。

3、不同模型之間的風險圖分析

不同模型之間的風險圖分析如下：

R語言數據挖掘實踐——Rattle模型評估案例實戰

從上圖可以得知，圖形下方面積最大的是根據自適應選擇模型繪製的風險圖，該圖像中有90%的面積位於Target-Adjusted線的下方，而決策樹模型的Target-Adjusted線下方的面積僅為85%，隨機森林和支持向量機的線下方面積為88%。

綜合分析來看，決策樹模型在在混淆矩陣中展現的預測誤差率是最低的，預測能力最強，而在風險圖分析中，決策樹模型的線下方面積所佔比最小；與此相反，自適應模型呈現出另一個極端：混淆矩陣中預測能力最差，風險分析中線下面積所佔比最大；支持向量機模型與隨機森林模型表現中庸。我們暫且先選擇隨機森林模型來完成下一步的分析操作。

4、模型ROC圖及相關圖表

模型的ROC圖及相關圖表如下：

R語言數據挖掘實踐——Rattle模型評估案例實戰

ROC圖繪製的是正確肯定判斷率與錯誤肯定判斷率之間的關係圖。模型正確肯定判斷率與錯誤肯定判斷率呈現正比例關係變化，且在錯誤肯定判斷率較低時正確肯定判斷率的變化幅度較大；
精確度與敏感度圖中，精確度與敏感度呈現反比例變動趨勢，說明在獲得模型精確度的同時將不得不犧牲模型的敏感度；

相關推薦

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'「大數據分析」十個大數據分析商業項目案例與企業實戰案例'

"一、數據分析——項目案例應用項目一、攜程口碑數據挖掘系統本系統的主題是利用數據分析、數據挖掘技術分析攜程的口碑數據，準確把控用戶行為路徑，進一步挖掘用戶價值的目的；項目中會用到用戶運營分析相關的AARRR-用戶路徑行為分析、AARRR模型和內容；同時也會利用爬蟲技術對攜程...

大數據機器學習數據挖掘數據庫技術可視化技術人生第一份工作招聘 Python 攜程旅行網軟件算法網絡爬蟲 Kaggle 跳槽那些事兒設計 Scrapy 萬物嚐鮮節分析師 MySQL 2019-09-07

'RevoScaleR 中函數rxDTree 擬合決策樹模型（R語言/ MLS)'

"RevoScaleR中的rxDTree函數使用基於二進制的遞歸分區算法來匹配基於樹的模型。得到的模型與推薦的R包rpart生成的模型相似。就像rpart一樣，rxDTree也支持分類樹和迴歸樹；差異由響應變量的性質決定：一個因子響應生成一個分類樹；數值響應生成迴歸樹。rx...

R語言算法手術兩百年大數據技術 2019-08-07

'用R語言讀取Excel、PDF和JSON文件，終於有人講明白了'

"導讀：本文將討論Excel、PDF等文件的讀取，以及相應函數的參數設置。作者：劉健鄔書豪如需轉載請聯繫華章科技下圖總結了主要程序包，希望讀者在日常練習和工作中遇到不同格式的文件時，能夠瞬間反應出讀取該格式所需的包及對應的函數。（限於篇幅，本文未包含圖中“平面文檔格式”這...

Excel JSON R語言大學大數據人生第一份工作 2019-08-01

'一文看懂用R語言讀取Excel、PDF和JSON文件（附代碼）'

Excel JSON R語言人生第一份工作微軟大數據大學 2019-07-30

'實戰丨基於大數據+AI體系的數據治理實踐'

"歡迎金融科技工作者積極投稿！各抒己見！投稿郵箱： [email protected] ——金融電子化本文節選自《金融電子化》2019年07月刊作者：中國農業銀行研發中心杜俊段勝榮編者按本文對農業銀行基於大數據和AI 體系的數據治理工作進行了總體介紹。過去十年，...

大數據人工智能中國農業銀行技術數據庫數據挖掘銀行信息安全設計金融並行計算第二十二屆中國農加工投洽會 Hadoop 2019-07-28

'自動化R語言單元測試提取'

"摘要本文探討了如何從客戶端代碼的執行跟蹤中提取目標軟件包的單元測試。我們的目標是減少創建測試套件所需的工作量，同時最大限度地減少單個測試的數量和大小，並最大限度地擴大覆蓋率。為了評估該方法的可行性，我們選擇了一個具有挑戰性的自動化測試提取的目標語言，即R語言，一種在數據科...

R語言軟件腳本語言程序員編程語言技術 2019-07-20

R語言繪圖：28個實用程序包

本文轉載自“ 阿虎定量筆記“，作者鄭連虎，轉載己獲授權。其他人轉載請聯繫原作者，點我跳轉原文。全文註釋# 示例參考幫助文檔# 我用Rstudio重現了所有...

R語言 RStudio 非洲 GU 2019-06-19

代碼詳解：用R語言構建ANN並將其可視化

神經網絡是一種模擬原始人類思維的計算設計。與人工神經網絡（ANN）相比，支持向量機首先將輸入數據概括為由核函數定義的高維特徵空間，並找到以最大餘量分配訓練...

R語言人工智能可視化技術 Origin 算法技術設計石油 2019-04-20

K-Means聚類的Python 實踐，一篇文章告訴你什麼是實戰為王

K-Means應該是最簡單的聚類算法之一了吧，理論上很簡單，就是隨即初始化幾個中心點，不斷的把他們周圍的對象聚集起來，然後根據這群對象的重置中心點，不斷的...

編程語言機器學習 Python Word 中國統計網 2017-10-28

TensorFlow機器學習理論與實戰第一章線性迴歸模型

《Python機器學習理論與實戰》系列主要講的是利用 Python 的機器學習庫 Scikit-Learn 來進行機器學習任務，但是由於人工智能和深度學習...

編程語言機器學習 Python Google 小AI諮詢 2017-10-18

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

本文最初由Sunil Ray發表於2015年9月13日，作者於2017年9月進行了更新。假設你正在處理一個分類問題，你已經形成了一些假設，建立了一套特徵並...

Python 機器學習編程語言 R語言機器人網JQRcom 2017-10-14

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》我們已經進入了全新的數據時代，大數據、雲計算、物聯網、機器學習、人工智能等等一系列技術紛至沓來...

機器學習 R語言數據挖掘大數據愛編程愛統計 2017-09-24

Python機器學習理論與實戰第一章線性迴歸模型

Python機器學習理論與實戰系列重點為大家介紹利用Python進行機器學習實戰的內容，每一章會先花一點時間簡單介紹一下模型的理論部分，然後是重點講解利用...

編程語言 Python 機器學習數據挖掘小AI諮詢 2017-09-14

R語言數據挖掘實踐——神經網絡代碼實戰

下面我們開始運用R語言分析來源於UCI數據庫中的關於白酒品質研究的數據集進行算法演示，該數據集是關於白酒中的各項變量對白酒品質的影響情況。這裡將利用該數據...

機器學習 R語言 Wine 白酒數據分析和挖掘 2017-09-08

R語言數據挖掘實踐——用R語言實現神經網絡

神經網絡概述人工神經網絡是一種應用類似於大腦神經突觸連接的結構進行信息處理的數學模型。在工程學與學術界也常將其直接簡稱為神經網絡或類神經網絡。神經網絡是一...

機器學習 R語言人工智能數學數據分析和挖掘 2017-09-07

R語言數據挖掘實踐——支持向量機代碼實戰

我們開始使用R語言分析iris數據集中各種花類別所具有的花萼及花瓣的特徵，建立適合的支持向量機模型，並對所建立的模型進行相應的分析，查看建立模型的預測能力...

機器學習 R語言數據挖掘可視化數據分析和挖掘 2017-09-06

R學習筆記系列—R語言從數據集中篩選需要的數據

1.5 篩選數據在前面的教程中，我們已經簡單地介紹過如何訪問數據集中的數據，比如通過下標或者變量名訪問數據集。這裡，我們再將如何從數據集中篩選數據的技巧集...

R語言 SQL 程序設計技術愛編程愛統計 2017-09-05

R語言數據挖掘實踐——支持向量機的常用函數

e1071包是R語言中用於支持向量機建模與分析的軟件包，其主要用於支持向量機的模型構建，提供核心函數svm()來建立支持向量機的基礎模型，並且可輔助使用p...

機器學習 R語言數據挖掘技術數據分析和挖掘 2017-09-05

R學習筆記系列—R語言從文本和Excel文件中讀取數據

1.4.1 從文本文件中導入數據可以使用 read.table() 函數從帶分隔符的文本文件中導入數。調用格式為：這個函數看上去很複雜，但其實很多參數在使...

編程語言 Excel R語言 C語言愛編程愛統計 2017-09-03

推薦中...