隨機森林VS神經網絡：哪個更好？

隨機森林人工智能算法 Python AI中國 2019-06-20

點擊上方關注，All in AI中國

隨機森林和神經網絡是兩種廣泛使用的機器學習算法。這兩種方法有什麼區別？什麼時候應該使用神經網絡，什麼時候應該使用隨機森林？ 
您看待數據變化的方式改變了您看待業務戰略的方式。

哪個更好：隨機森林或神經網絡？這是一個常見問題，答案非常簡單：視情況而定。我將嘗試向您展示何時使用隨機森林好以及何時使用神經網絡好。

首先，隨機森林（RF）和神經網絡（NN）是不同類型的算法。 RF是決策樹的集合，在集合中，每個決策樹處理樣本並預測輸出標籤（在分類的情況下）。集合中的決策樹是獨立的，每個人都可以預測最終的反應。神經網絡是連接神經元的網絡。沒有其他神經元，神經元就無法運作 - 它們是相互連接的。通常，它們按層分組並處理每層中的數據並傳遞給下一層，最後一層神經元負責做決定。

隨機森林只能使用表格數據。（什麼是表格數據？它是表格格式的數據）。另一方面，神經網絡可以使用許多不同的數據類型：

表格數據
圖像
音頻數據
文本數據 - 可以在預處理後由NN處理，例如使用詞袋。理論上，RF也可以處理這些數據，但在實際應用中，經過這樣的預處理後，數據將變得稀疏，RF將被卡住。

所以現在你有一些直覺，當你處理圖像、音頻或文本數據時，你應該選擇NN。

那麼表格數據呢？

對於表格數據，您應該檢查兩種算法並選擇更好的一種。但是，相對於神經網絡我更喜歡隨機森林，因為它們更容易使用。我會告訴你原因。

隨機森林與神經網絡 - 數據預處理

理論上，隨機森林應該使用缺失和分類數據。但是，sklearn實現不處理此問題（link1，link2）。要為Random Forest（在python和sklearn包中）準備數據，您需要確保：

您的數據中沒有缺失值
將分類數據轉換為數值

神經網絡的數據預處理需要填充缺失值並將分類數據轉換為數字。更重要的是，需要進行特徵縮放。在具有不同範圍的特徵的情況下，模型訓練將存在問題。如果不將特徵縮放到相同的範圍，那麼具有較大值的特徵將在訓練中被視為更重要，這是不需要的。更重要的是，梯度值可能會爆炸，神經元可能會飽和，這將使得無法訓練NN。總之，對於神經網絡訓練，您需要執行以下預處理：

填寫缺失值
將分類數據轉換為數字
將特徵縮放到相同（或至少相似）的範圍內

請記住，用於準備訓練數據的所有預處理都應該用於生產。對於NN，您有更多的預處理步驟，因此在生產系統中實施更多步驟！

隨機森林與神經網絡 - 模型訓練

數據準備就緒，我們可以訓練模型。

對於隨機森林，您可以設置集合中的樹木數量（這很容易，因為RF中的樹越多越好），您可以使用默認的超參數，它應該可以工作。

你需要一些神奇的技能來訓練神經網絡

您需要定義NN體系結構。通常2或3層就足夠了。每層使用多少個神經元？使用什麼激活功能？使用什麼權重初始化？
架構準備好了之後，你需要選擇一個訓練算法。你可以從簡單的隨機梯度下降開始，但還有很多其他的（RMSprop，Adagrad，Adam，Adadelta ......看看Keras的優化器）。讓我們選擇'簡單'SGD：你需要設置學習率、動量、衰減。沒有足夠的超參數？您還需要設置批量大小（批次 - 每次權重更新顯示的樣本數）。

你知道什麼是有趣的。上面提到的每個NN超參數都很關鍵。例如，您在第二個隱藏層中設置了太大的學習率或沒有足夠的神經元，那麼您的NN訓練將陷入局部極小值。

實證例子

別說了，告訴我結果！好吧，讓我們開始訓練模型。

我將從OpenML.org數據存儲庫中的9個數據集上訓練隨機森林和神經網絡。

數據集描述：

如您所見，我使用的數據集相當小，最多可達幾千行和幾列。我希望有一些小數據用於快速示例，儘管如此，它們涵蓋了一些可能的用例範圍。您可以通過openml.org中的id訪問每個數據集。我將使用70％的數據進行訓練，其餘的則使用隨機分割進行測試。

對於隨機森林和神經網絡訓練，我使用了我的開源AutoML軟件包mljar-supervised。我更喜歡在這裡使用AutoML方法，因為它為我進行數據預處理並調優超參數。

最後，我將簡單集成計算為隨機森林和神經網絡預測的平均值。

值得一提的是使用AutoML訓練NN的細節。以下是在AutoML中選擇的NN超參數：

AutoML正在創建具有1、2或3層的神經網絡，並繪製神經元的數量。對於訓練，使用批量大小等於256的SGD。

與5次重複比較的實證結果（logloss越低越好）：

隨機森林與神經網絡的logloss度量

也許有可能通過神經網絡可以獲得更好的結果，但需要專家進行大量的手動調整。

下一個令人驚訝的事情是簡單集成平均值的結果，它僅在3個案例（id為31,44,179的數據集）中略微改善了最終預測。

結論

當您左右為難時，不知道選擇隨機森林還是神經網絡。您應該根據您擁有的數據類型來決定。您應該使用神經網絡：

圖片
音頻
文本

如果您要使用表格數據，則首先檢查隨機森林是值得的，因為它更容易。隨機森林需要較少的預處理，訓練過程更簡單。因此，在生產系統中使用RF更簡單。如果您對模型性能不滿意，您應該嘗試調整和訓練神經網絡。有很多超參數可以在NN中調整，如果您有足夠的知識和經驗，您可以用NN獲得非常好的結果。

相關推薦

'神經網絡簡介'

"簡單解釋神經網絡是如何工作的，以及如何在Python中從頭實現一個。這句話可能會讓你大吃一驚:神經網絡並沒有那麼複雜!“神經網絡”這個詞經常被用作流行語，但實際上它們往往比人們想象的要簡單得多。這篇文章是完全針對初學者準備的，我們假設你沒有任何機器學習的知識。我們將瞭解神...

人工智能 Python 機器學習數學人生第一份工作 2019-09-17

'餘承東：如果Arm斷供也有性能更好的CPU替代，鴻蒙或明年3月P40搭載發佈'

"EETOP整理自：硅谷分析獅、運營商財經網華為終端CEO餘承東在IFA展會期間接受媒體採訪時表示，麒麟處理器目前依然只供他們自己使用，但是華為在考慮對外銷售。上述消息來自B站UP主鵬鵬君駕到，其在對餘承東採訪時，後者說出了上述消息。餘承東在現場表示，其實有很多人在問這個問...

餘承東 ARM 中央處理器華為公司華為手機運營商英國跳槽那些事兒歐洲 Google IFA Android 設計人工智能 2019-09-13

'你訓練的神經網絡不對頭的37個原因'

"作者：Slav Ivanov編譯：ronghuaiyang導讀大家都遇到過這種情況，訓練的時候沒什麼問題，測試的時候就不對勁了，想找問題，感覺無處入手，那麼今天，給你37個建議，看看再說吧。這個網絡在過去12個小時中一直在進行訓練。一切看起來都很好：梯度在流動，損失在降低...

人工智能電腦 2019-09-12

'研究人員用深度神經網絡算法分析《根特祭壇畫》'

"倫敦大學學院和杜克大學的研究人員最近發表了一項研究成果，生動地揭示了人工智能在藝術史研究上的潛在能力。著名的15世紀組畫《根特祭壇畫》由胡伯特·凡·艾克和揚·凡·艾克兄弟倆先後持續創作，很難分辨哪些部分出自胡伯特、哪些部分出自揚。研究人員結合深度神經網絡算法和x射線圖像技...

人工智能深度學習算法倫敦大學藝術技術歷史金融杜克大學設計 2019-09-12

'真實的上海 IT 圈：張江男vs漕河涇男'

"作者 | ID王大偉本文經授權轉載自Python愛好者社區（ID：python_shequ）通過比較上海各住宅小區在工作日晚餐與夜宵時段一人食外賣訂單指數我們會發現：上海IT圈兩大勝地：張江高科和漕河涇雙雙上榜其中張江位列《上海最孤獨的15個區域榜單》第一名真實的上海IT...

張江高科上海陸家嘴徐家彙 Python 人生第一份工作清真食品金融小吃夜宵時尚燒烤服裝設計騰訊技術 2019-09-11

'騎砍2VS戰意VS虎豹騎，2019年騎砍熱潮中誰將獨佔鰲頭？'

"近年來，軍事遊戲出現了一股“騎砍”熱潮——大量騎砍類冷兵器戰爭遊戲面市，也讓喜歡這一類型的玩家一臉懵逼，不知道該玩哪一款。小編挑選了目前市場上反饋比較好的三款騎砍類戰爭遊戲——單機遊戲《騎馬與砍殺2》、新網遊《戰意》、老網遊《虎豹騎》進行了縱深對比，希望對你們能有所幫助。...

虎豹騎戰意網易遊戲騎馬與砍殺網絡遊戲人工智能網易戰爭遊戲冷兵器設計武器 2019-09-10

'訓練一個能像人一樣說話的神經網絡模型，具體需要哪些步驟？'

"AI 開發者按，本文的作者是數據科學家 Maël Fabien。在過去的幾個月裡，他在個人博客上寫了 100 多篇文章。這個內容量相當可觀。他突然想到一個主意：訓練一個能像他一樣說話的語言生成模型。為此，他寫了一篇文章分享了生成一個像人一樣說話的神經網絡模型的過程和相關代...

人工智能 Markdown Kaggle 算法文章操作系統 2019-09-09

'激光雷達VS攝像頭，高技術、低成本？誰才是L3級自動駕駛的主流'

"在2019年4月份特斯拉開放日期間，馬斯克在此期間表示：“傻子才用激光雷達，現在誰用激光雷達誰完蛋”，此言一舉將激光雷達放到了風口浪尖，引發了自動駕駛領域關於更高一級的技術架構變動。未來特斯拉將以攝像頭+毫米波雷達以及AI 芯片組成的自動駕駛套裝，顯然，攝像頭在特斯拉自動...

無人駕駛雷達技術人工智能奧迪特斯拉汽車硬件英偉達 Altera 凱迪拉克英飛凌伊隆·馬斯克臺中 2019-09-09

'超跌股百度VS成長股阿里巴巴現在哪一個更值得買入？'

"百度（BIDU）和阿里巴巴（BABA）都是中國互聯網巨頭。百度擁有中國最大的搜索引擎業務，全球第二大智能音箱業務，不斷擴張的AI人工智能業務，以及不斷成長的自動駕駛平臺。而阿里巴巴主導中國的電商和雲服務市場，而且在這2個業務方面不斷向海外擴張。過去12個月，百度股價大跌逾...

阿里巴巴集團百度愛奇藝電子商務雲計算騰訊投資經濟人工智能音箱 2019-09-07

'利用神經網絡，Facebook用三顆VR攝像頭完成面部追蹤'

"此前，青亭網曾報道Facebook訓練了一款人臉追蹤算法，只依靠普通VR頭顯上的3顆攝像頭就能實現對人臉的實時追蹤，用於渲染逼真的VR頭像。前不久，Facebook公開了關於這項研究的論文，並詳細闡釋瞭如何利用多視點圖像轉化法，在搭載9顆攝像頭的VR頭顯上訓練算法的全過程...

Facebook 人工智能算法卡通技術設計 2019-09-07

'華為5G芯片麒麟990 VS 三星Exynos 980，華為高管給出質疑'

"來源：半導體行業圈 & EETOPIFA2019即將開始，各個廠商都已經迫不及待發布自家產品。就在今天，三星搶先發布了其首款5G SoC芯片Exynos 980，與此同時，華為的首款5G SoC芯片——麒麟990 5G也被曝光，而且將會在本週開幕的IFA 2019...

華為手機華為公司我的第一部5G手機三星集團技術智能手機通信 IFA GPU CES 高通設計李小龍臺灣積體電路製造公司 Wi-Fi 原汁原味的德系SUV 人工智能 2019-09-06

'VS Code 寫 Python 的一點小技巧'

"本文基於 VS Code 1.36.1為什麼要用 VS Code？用 PyCharm 不好嗎？VS Code 是開源免費的，PyCharm 是收費的。VS Code 除了 Python，還可以寫其他語言，PyCharm 不行。VS Code 啟動速度比 PyCharm 快...

Python PyCharm Microsoft Visual Studio 機器學習設計 2019-09-05

'王源前往伯克利，發文告別粉絲：不要哭，期待帶回更好的我'

"9月3日，TFBOYS成員王源寸頭造型現身機場。當天王源身穿黑白混搭的外套，揹著黑色的雙肩包和一個淺藍色的包包。他在登機後在微博發文，宣佈自己即將前往美國伯克利音樂學院求學，同時對粉絲表示了感謝和祝福。王源稱，感謝粉絲們讓自己體會到了作為一個歌手最輝煌的時刻，希望未來能帶...

王源 TFBOYS 齊魯晚報歌手山東人工智能新聞機器人 2019-09-05

'香港科技大學開發出全新的雙層全光學神經網絡'

"導讀據美國光學學會官網近日報道，香港科技大學的研究人員演示了一種全新的多層全光學人工神經網絡，向著實用的大規模光學神經網絡邁出了關鍵一步。背景大腦是人體最重要的器官之一，它支撐著人的視覺、聽覺、平衡、味覺、嗅覺、記憶、情感、學習等。大腦的構造十分複雜，它由大約1千億個神經...

人工智能電腦大學香港技術並行計算香港科技大學設計硬件牛津大學語音識別技術人生第一份工作無人駕駛 2019-09-03

'中英文全文實錄！馬雲VS馬斯克，你站誰？'

"昨天上午開幕的2019世界人工智能大會上，聯合國數字合作高級別小組聯合主席馬雲和特斯拉公司聯合創始人兼首席執行官埃隆•馬斯克，上演高端對話。雙方“華山論劍”，到底碰撞出了多少思維的火花？以下為“雙馬對話”全文實錄。全文共14880字，閱讀大約需要24分鐘中文版全文實錄——...

人工智能伊隆·馬斯克馬雲電腦讀書 2019-09-02

'中英文全文實錄！馬雲VS馬斯克，你站誰？'

"昨天上午開幕的2019世界人工智能大會上，聯合國數字合作高級別小組聯合主席馬雲和特斯拉公司聯合創始人兼首席執行官埃隆•馬斯克，上演高端對話。雙方“華山論劍”，到底碰撞出了多少思維的火花？以下為“雙馬對話”全文實錄。全文共14880字，閱讀大約需要24分鐘先看個視頻現場版本...

人工智能伊隆·馬斯克馬雲電腦阿里巴巴集團 2019-09-01

'我的世界19w35a快照：小蜜蜂vs凋靈誰更強？玩家一腳把村民踹下床'

"問：1.14新版村民總是“霸床”怎麼辦？彆著急，在即將到來的1.15最新的快照19w35a中，玩家可以直接把村民給“踹”下去！（PS：Mojang什麼時候又悄咪咪的更新了1.15快照）更新一：把村民“踹”下去！自從1.14更新了村莊，Mojang給了村民可以睡覺的AI，...

Mojang 我的世界蜂蜜 Qwodeshijie 人工智能 Java 2019-09-01

'雙層全光學神經網絡：速度快，功耗低'

人工智能技術電腦硬件深度學習並行計算設計香港科技大學大學牛津大學語音識別技術香港無人駕駛 2019-09-01

'“深度學習”（2）神經網絡的神奇操作'

"今天我們來做一個神經網絡學習的實戰。這是一套可以說是神奇的操作 —— 因為它簡直是出乎意料地簡單。你會感慨，為什麼這麼複雜的問題，居然能用這麼一個簡單粗暴的方法就解決了。在我看來這絕對是一個工程上的幸運發現。很多發明創造都是工程師偶然鼓搗出來的。噴氣式發動機到底是什麼原理...

人工智能深度學習數學電腦數據庫 Python 2019-08-31

推薦中...