15分鐘開啟你的機器學習之旅——隨機森林篇

機器學習隨機森林編程語言 Python 新智元 2017-06-27

新智元編譯

機器學習模型可用於提高效率，識別風險或發現新的機會，並在許多不同領域得到應用。它們可以預測一個確定的值（e.g.下週的銷售額），或預測分組，例如在風險投資組合中，預測客戶是高風險，中等風險還是低風險。

值得注意的是，機器學習不是在所有問題上都工作得非常好。如果模式是新的，模型以前沒有見過很多次，或者沒有足夠的數據，機器學習模型的表現就不會很好。此外，機器學習雖然可以支持各種用例，但仍然需要人類的驗證、感覺檢查和專門領域知識。

話雖如此，我們可以通過解決上述用例之一來看看機器學習可以實現哪些目標。讓我們通過機器學習技術的一個基本應用，看看將一組客戶數據轉變為風險水平評估這個預測涉及了哪些過程。

訓練模型

我們可以使用分類模型——預測每個項分別屬於哪個類或組。可以很好地實現這個任務的一類算法是隨機森林。這種類型的模型是基於決策樹，即一種使用不同的變量（有關客戶的信息）來分割一組對象（在這個用例中是客戶），並繼續分割，直到每個對象都被放置到特定的類別。隨機森林是這樣的決策樹的集合。使用多個樹可以降低過擬合（模型對於第一組特定的訓練數據集工作得非常好，但對後續數據集工作不好）的風險。

創造像這樣複雜的模型似乎令人望而生畏。但好消息是，許多語言都有預構建這種類型的模型的庫。在這個用例下，我使用的是python庫scikit-learn（以及用於管理數據集的pandas和numpy庫）。

在繼續之前，請確保你已經安裝了Python（我使用的是Python2），並且在上面提到的3個包裝中加載。這個可以在終端做，用pip安裝pandas（numpy和sklearn也是一樣）。

下面的示例都使用 Jupyter Notebook，這是數據科學家很常用的工具。相同的代碼段直接在Python控制檯或其他任何Python IDE中工作。

導入的語句使庫對當前的段可用。然後，繼續將數據從csv文件加載到dataframe（這是pandas使用的特定格式的數據結構），然後添加標題名字。

現在，數據保存在 pandas 的 dataframe(df)，如下圖所示，選擇前5行作為樣本。

為了讓模型進行預測，需要“訓練”。也就是說，模型被顯示一組已經具有相關分類的數據。從這些數據，模型可以瞭解有關數據主體（在這個case是客戶）本身的信息與它的標籤（高風險、中風險、低風險）之間的關係。

在隨機森林模型的情況下，是通過數據集特徵來對數據進行劃分或分割，從而找到相關性。例如，根據“使用的設備數量”來進行劃分，可以把使用一個設備的和使用兩個設備的分成兩組（根據數據集的基數，可能有兩個以上的組）。進一步的分類要使用不同的信息，直到可以將所有記錄劃分到最終的類別（在這個case是風險級別）。

準備訓練集和測試集

模型訓練好之後，使用模型未遇見過的其他數據對其進行測試。新的數據已經沒有原始標籤，要求模型自己去預測值。

為了實現這一點，數據集需要分成兩部分。一部分用於訓練，另一部分用於測試。下面的代碼段為每個觀察值隨機分配1到100之間的值，並將分配到低於70的隨機數的那些行分到訓練集，其餘的作為測試集。因此，大約70％的數據用於訓練。在每個數據集print一個值，可以顯示這是有效的。

現在，應該為這個模型準備好訓練集。創建一個變量來保存對特徵（有助於確定最終類別的信息）的引用和另一個變量來保存類別本身。

首先，為類別創建變量。下面示例中的變量 train_labels 保存了數據集中的risk_label 列的內容。這些是風險級別的“高”，“中”或“低”，但是使用“因數分解”函數轉變為數字（0, 1, 2）。

接下來，特徵的名稱被捕捉到一個單獨的變量中，即下面示例的columns_for_features。同時，隨機森林分類器被創建並存儲在名為classifier 的變量中。

現在，訓練模型的一切都準備好了。分類器有一個函數 fit，通過訓練數據集（train_df）被告知要注意的行，以及訓練標籤，或已經可用的類別。

所以現在模型可以訓練了。它將會確定“features”與“labels”之間的關係，並且只有當features可用時才能確定數據未知的label。

測試模型

使用測試數據集，可以測試模型的執行性能。分類器有一個叫做predict的函數，它從前面準備的test_df數據集傳遞特徵數據。它的輸出是一組整數（0, 1, 2），分別表示標籤（'high'，'med'，'low'），即模型預測出的類別。

這很令人興奮，但意義不是很大。幾個快速步驟可以將值解碼迴文本標籤，然後將模型得出的類別與測試數據集中的原始標籤進行比較。

下面的表格顯示了每個真實的組與預測組的比較。這裡顯示的是，對於高風險的10個觀察值，該模型預測其中9個是高風險，1個是中等風險。對於18個的低風險的觀察值，該模型的預測完全一致。對於最後10箇中等風險的觀察值，模型的預測有7項正確，另外3項被錯誤地預測為高風險。

這是一個不錯的結果。幾個小步驟，我們就能夠創建一個模型，訓練它識別數據中的模式，並基於這些訓練，模型能夠預測新數據的類別。這意味著，你的公司可能不再需要人去人工審查所有的客戶資料，你可以簡化過程並只關注高風險客戶。

在這個case中，分類器預測的是風險水平。同樣的技術也可以應用於預測客戶流失，機器故障以及其他各種業務問題。

在實際應用中，這個過程要花更多的時間，但這是理解機器學習的基本原理和關鍵步驟的很好的第一步。

此外，使用預先準備好的數據集有很大好處。在大多數情況下，要做大量的工作將數據變為易於建模的形式之後，機器學習的榮耀才會顯現。這些工作包括數據清洗，特徵選擇，轉換和格式化等。

原文：https://www.theregister.co.uk/2017/06/21/15_minutes_in_machine_learning/

點擊閱讀原文查看新智元招聘信息

相關推薦

'5分鐘內看懂機器學習和深度學習的區別'

"在本文中，我們將研究深度學習和機器學習之間的差異。我們將逐一瞭解它們，然後討論他們在各個方面的不同之處。除了深度學習和機器學習的比較外，我們還將研究他們未來的趨勢和走向。深度學習 VS 機器學習深度學習與機器學習簡介一、什麼是機器學習？通常，為了實現人工智能，我們使用機器...

人工智能算法自然語言處理技術信息檢索 GPU 人生第一份工作市場營銷隨機森林 2019-09-09

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

'4 種你在書裡也學不到的機器學習技能，精髓值得分享'

"在過去幾年，機器學習非常火熱。你可能要問為什麼？其實很簡單，因為它確實對我們的生活很有用。最新的機器學習研究取得了很多突破，在某些任務上的表現甚至已經超越了人類。而且，這個領域也受到了大量資本的青睞，越來越多的從業者積極地投身於這個行業。毋庸置疑，這是一個非常有發展空間的...

機器學習技術算法 MOOC 人工智能深度學習大學設計算法設計軟件跳槽那些事兒 Python 文章 2019-08-24

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'機器學習深度學習面試問題彙總（提升你的面試成功率）'

"作者：George Seif編譯：ronghuaiyang導讀在面試之前，你會覺得自己什麼都懂，但是真的開始面試了，你發現你自己什麼都不懂！可怕的機器學習面試。在面試之前，你會覺得自己什麼都懂，但是真的開始面試了，你發現你自己什麼都不懂！在過去的幾個月裡，我面試了很多公司...

機器學習人生第一份工作深度學習可視化技術算法技術人工智能創業自然語言處理科技向善萬家團圓亞馬遜三星集團 2019-08-06

'Python做人工智能？讓電腦自己學會玩遊戲，實戰帶你入門機器學習'

"前言之前本號就有一篇文章是關於用Python編寫一個"拿石子"遊戲，一個能讓你與電腦對弈的小遊戲，但其中電腦玩家的選擇是隨機的，意味著你是與一個智障電腦在玩遊戲。今天我們更進一步，編寫程序讓這個智障電腦可以自己與自己不斷玩這個"拿石子"遊戲，最終學會如何贏得這個遊戲。不僅...

電腦 Python 人工智能文章 GitHub 算法小遊戲 2019-08-04

'最新的5個機器學習項目，你千萬不能錯過'

"摘要：本文介紹5個新的機器學習項目，這些項目你可能還沒有聽說過，但確實對項目開發有所幫助，感興趣的讀者可以動手實踐一下。隨著人工智能和深度學習的興起，網絡上存在的學習資源以及開源項目也越來越多。本文精選了的五個項目，都含有潛在新的機器學習想法，且全都是用Python實現...

人工智能 Python GitHub 可視化技術 GPU 技術 2019-07-18

'3分鐘告訴你，你到底適不適合學習python'

"近日，TIOBE 發佈了 6 月份編程語言排行榜，Python 的指數創下了歷史新高，達到 8.530%，甩開了 C++ 的 7.384%，可謂是揚眉吐氣一回。而且python的相比其他語言，更加的易學，有趣，這也讓python成為眾多初學者的首選，那python更適合哪...

Python 編程語言技術 Linux Java 人生第一份工作大數據 CSS 電腦程序員大學人工智能 2019-07-16

15分鐘帶你瞭解虛擬內存

前言這篇文章主要是想盡量直觀的介紹虛擬內存的知識，而虛擬內存的知識不管作為在校學生的基礎知識，面試的問題以及計算機程序本身性能的優化都有著重要的意義。而起...

操作系統 Python 程序員文章 C語言 Linux 人工智能算法 Docker 技術大學數學編譯器工程師讀書彙編語言編程語言 2019-07-14

不知道怎麼入門人工智能，不懂機器學習是什麼？我在這裡幫你解惑

大家好，我，工科碩士出身，入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在就...

人工智能 Python 算法數學技術電腦人生第一份工作大數據語音識別技術數據挖掘 Facebook Google 神經科學金融 2019-07-08

優秀！這個庫幫你使用GPU加速傳統機器學習方法和Pandas數據處理

隨著深度學習的火熱，對計算機算力的要求越來越高。從2012年AlexNet以來，人們越來越多開始使用GPU加速深度學習的計算。然而，一些傳統的機器學習方法...

GPU 機器學習並行計算中央處理器深度學習算法 Python Fortran 英偉達 C語言 Medium 電腦推薦技術 Apache 編程語言 2019-07-08

機器學習 101：一文帶你讀懂梯度下降

原標題 | Machine Learning 101: An Intuitive Introduction to Gradient Descent作者 |...

機器學習算法人工智能 Python 可汗學院人生第一份工作 2019-07-08

掌握這十大機器學習方法，你就是圈子裡最靚的崽

全文共5830字，預計學習時長10分鐘圖片來自Unsplash網站，chuttersnap攝不論是在科研中還是在工業領域，機器學習都是個熱門話題，新的機器...

機器學習算法人工智能技術可視化技術隨機森林貨車深度學習自然語言處理數學設計大學 2019-06-15

機器學習系列15：學習曲線

機器學習系列15：學習曲線我們在調試一個學習算法時，通常會用學習曲線(Learning Curves)觀察機器學習算法是否為欠擬合或過擬合。隨著樣本數的不...

機器學習算法 2019-06-13

Python做人工智能？讓電腦自己學會玩遊戲，實戰帶你入門機器學習

前言之前本號就有一篇文章是關於用Python編寫一個"拿石子"遊戲，一個能讓你與電腦對弈的小遊戲，但其中電腦玩家的選擇是隨機的，意味著你是與一個智障電腦在...

電腦人工智能 Python 文章 GitHub 算法 2019-06-07

僅需10分鐘：開啟你的機器學習之路

機器學習之路雖漫漫無垠，但莘莘學子依然紛紛投入到機器學習的洪流中。如何更有效地開始機器學習呢？所謂「八仙過海，各顯神通」，本文作者以Python語言為工具...

機器學習 Python Kaggle 可視化技術算法深度學習技術泰坦尼克號 PowerShell 編程語言 2019-05-21

從大數據到機器學習，帶你入門史上最強跨界學科

導讀：在傳統的科學研究中，學科與學科之間的融合與交流並不多，而有一門學科則做到了融合計算機科學、統計學、數學、工程學這些學科，甚至將其應用範圍擴展至經濟、...

機器學習大數據電腦操作系統軟件瀏覽器 Paypal Windows XP 銀行 Firefox Windows 信用卡 Windows Vista 可視化技術 Mac電腦生物黑洞經濟讀書 2019-05-14

像Google一樣構建機器學習系統2 - 開發你的機器學習工作流

按照上篇文章搭建了一套Kubeflow Pipelines之後，我們一起小試牛刀，用一個真實的案例，學習如何開發一套基於Kubeflow Pipeline...

機器學習 Google 阿里雲計算 Python GPU Git 2019-05-09

推薦兩本人工智能書籍，帶你快速走進Python與機器學習的世界

福利在推薦這兩本書之前，先抽取一位幸運讀者贈送其中一本書籍，參與鏈接為：轉發抽獎如果你喜歡人工智能，快來抽獎把，歡迎關注@異步社區抽獎頁面python與人...

人工智能 Python 算法技術推薦技術隨機森林編程語言大數據文本分析 2019-05-09

機器學習的前世今生：從第一個現代神經網絡為你講起（下）

點擊上方關注，All in AI中國作者——Jean-Christophe B. 這篇文章是我明年將在法國巴黎高等藝術學院教授的博士課程"初學者深度學習入...

人工智能算法 Python 數學文章工程師 2019-04-26

推薦中...