不均衡數據怎麼破？對付它的七種武器！

七種武器機器學習 Quora 隨機森林雷鋒網 2017-06-15

先問大家一個問題：

銀行欺詐識別、市場實時交易、網絡入侵檢測等領域的數據集，有哪些共通點？

答案是：“關鍵”事件在數據中的佔比經常少於1%（例如：信用卡行騙者、點擊廣告的用戶或被攻破的服務器的網絡掃描）。

然而，大多數機器學習算法在不均衡數據集的表現都不太好。以下七種技術可以幫到你，訓練一個分類器用於檢測不正常類別數據。

1. 使用正確指標評估權值

對於不均衡數據生成的模型，使用不恰當的評估方法很危險。架設訓練數據是上圖展示的數據。若準確度是衡量模型好壞的指標，把所有測試樣本為劃分為“0”，將得到非常高的準確率(99.8%)，但顯然，這模型不能為我們提供任何有價值的信息。

對於這個情況，可以用其它評估指標：

準確率（Precision/Specificity）: 選擇的實例有多少是相關的；
召回率（Recall/Sensitivity）: 選擇了多少相關實例；
F值（F1 score）: 準確率與召回率的調和平均數；
MCC: 觀察值與預測值之間的相關性係數；
AUC: 正陽性與假陽性的關係。

2. 訓練集重抽樣

除了使用不同的評估標準，還可以想辦法獲取其他數據集。有兩種方法能把不均衡數據集轉化為均衡數據集那就是欠抽樣以及過抽樣。

2.1.欠抽樣

欠抽樣通過刪減大比例類的樣本量來平衡數據集。這方法適用於數據量充足的情況。通過保留所有的小比例類數據樣本並從大比例類數據中隨機選取同等數量的樣本，產生一個新的可用於後續模型的均衡數據集。

2.2.過抽樣

反之，當數據量不足時則採用過抽樣方法。通過增加小比例類的樣本量來平衡數據集。不再是去掉冗餘樣本，通過如數據複製（repetition）、拔靴法（boostrapping）或合成少數過採樣技術（SMOTE）產生了新的小比例類樣本[1]。

注意：兩種方法沒有絕對優勢。關鍵是看情況使用兩種方法。過抽樣與欠抽樣合組合使用也常有效解決不均衡問題。

3. 恰當使用K-折交叉驗證法

值得注意的是，當使用過抽樣法來解決不均衡問題時，交叉驗證法是需要合理應用的。

雷鋒網提醒：過抽樣法會提取出小比例類的觀察數據，用拔靴法根據分佈函數隨機生成新數據。如果交叉驗證法在過抽樣後使用，基本上會讓模型過擬合到一個特別的偽拔靴法結果。這就是為什麼交叉驗證應該在過抽樣前完成，正如如何實現特徵選擇。只有當數據反覆地重抽樣，數據集才具有隨機性來確保不會有過擬合問題。

4. 融合不同的重抽樣數據集

成功泛化一個模型，最簡單的方法是使用更多數據。問題是，現成的分類器，如邏輯迴歸或隨機森林，傾向於通過拋棄掉小比例類數據進行泛化。一個簡單的實踐方法，是使用所有小比例類樣本，和劃分為n份的互斥大比例類樣本，共同建立n個模型。例如保留 1000個小比例類別樣本，對大比例類別隨機抽樣10,000個樣本，你只需要把10,000個樣本分為10份並訓練10個不同的模型。

這方法很簡單，並在水平方向完美的可擴展（假如你有很多的數據），因為你可以在不同簇節點上訓練並跑你的模型。模型融合泛化效果更好，這使得這方法易於處理。

5. 不同的比率重抽樣

上述方法，還可以通過調整小比例類別與大比例類別之間不同的比率來調優。最佳比率十分依賴於數據和使用的模型。但不要用同樣的比率去訓練 ensemble 裡的所有模型，值得試著用不同比率模型融合。所以如果訓練10個模型，一個模型使用1:1的比率（少類別:多類別）、另一個使用1:3、或2:1可能都合理。取決於模型，這會影響類別的權重。

6. 聚類多類別

Sergey在Quora提出了一個優雅的方法 [2]。不再依賴隨機抽樣，去保留訓練樣本的多樣性，他建議把大比例類別聚類進r個組，r是它裡面的案例數。對於每個組，僅保留質心（聚類的中心）。然後模型僅用小比例類別和質心數據進行訓練。

7.設計你自己的模型

所有之前的方法注重數據，並保持模型不變。但實際上，假如模型適合於不均衡數據，那就不需要對數據重抽樣。假如數據傾斜不是太嚴重，採用著名的XGBoost算法是一個很好的開始，因為它從內部確保訓練的數據包不會是不均衡的。在算法內部，數據其實祕密地重抽樣了。

設計一個成本函數，對小比例類別誤分類的懲罰，要多於大比例類別的誤分類，這可能會產生自然地傾向小比例類別進行泛化的模型。例如，調整SVM來通過同樣的比率（佔總樣本的比例），去懲罰小比例類別的誤分類。

總結

最後，雷鋒網提醒，這不是一個完整的技術列表，僅僅是一個處理不均衡數據的開始。其實，並沒有一個能適配所有的問題的、最好的方法或模型。所以強烈建議嘗試不同的技術和模型，去評估哪個的效果最好。可以嘗試創新地同時使用幾種不同的方法。另外很重要的一點是，在很多不均衡類別發生的領域（如欺詐檢測、實時交易），“市場規則”是經常改變的。所以，請檢查過去的數據是否已過期。

via kdnuggets，雷鋒網編譯

相關推薦

'「數據分析」怎麼自學數據分析？數據分析師需要掌握的基礎體系'

"這是一份數據分析師的入門指南，一位數據分析師需要掌握的基礎體系，也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。第一週：Excel每一位數據分析師都脫離不開Excel。它是日常工作中最常用的工具，...

Excel 數據庫可視化技術 Dashboard Python 跳槽那些事兒分析師微軟 SQL 機器學習 2019-09-14

'碧玉刀格德斯：山東魯能之七種武器（二）'

"二、碧玉刀：格德斯碧玉，稀世之珍寶，溫婉細膩，光華內斂。刀，百兵之魁首，犀利無比，一往直前。碧玉若成刀，則剛柔相濟，無堅不摧。碧玉刀，發掘於南美之巴西利亞，貌美似玉樹臨風，才華亦冠絕當世，以冠弱之年即征戰巴甲。少年得志難免輕狂，故常恃才傲物。喜著鮮衣駕怒馬，戰場上視對手如...

七種武器山東魯能泰山足球俱樂部山東李逵中國足球超級聯賽巴西足球甲級聯賽河南建業足球俱樂部巴西李霄鵬河南旋風索超上海綠地足球俱樂部 2019-09-09

'你以為你的決策靠數據驅動，其實它來自偏見'

"統計學先驅愛德華茲·戴明(W. Edwards Deming)曾說過：“除了上帝，其他人請用數據說話。” 作為一名統計學家，我很贊同這一說法。但作為一名社會科學家，我又不得不提醒大家，許多決策者都太過熱衷於追逐數據，想要藉此遠離無知，卻從未改進自己的決策。有沒有辦法讓決策...

機器學習愛德華茲·戴明 Google 2019-08-30

'你還不知道嗎？靠轉型大數據漲薪的日子已經一去不復返了'

"前言前兩天我和朋友突然聊起這個話題，經過一番討論還是想寫下自己的觀點，其實我個人認為大數據還是值得轉型的，但是想著只靠一個技能翻身的機會沒了在 2013 年，大數據剛剛嶄露頭角，有一大批程序員，在那個時間點，踏上了靠轉型大數據升職加薪的日子。在那個時候，只要稍微懂一點點 ...

大數據工程師 Scala 算法技術 Hadoop 數據挖掘機器學習跳槽那些事兒 Python Java Linux Hive 可視化技術 SQL 人生第一份工作 OpenCV 腳本語言程序員 MySQL Storm HBase Java虛擬機 Spark 深度學習 MapReduce 2019-08-25

'程序員修養：萌新程序員必備的\'七種武器\'，大廠程序員就靠它'

" 信息技術的發展時間雖然不長，但其爆炸式的發展速度使信息技術迅速覆蓋社會和人類生活的各個角落。程序員們是這場信息化浪潮的見證者之一，更是其中的主要參與者，這是時代賦予每個程序員的機會和責任。信息技術的更新速度是驚人的，程序員的職業生涯則是一個要求不斷學習的過程，永遠不能固...

程序員七種武器數據庫技術 XML Linux Windows 軟件腳本語言分佈式計算武器 SQL C語言操作系統可視化技術軟件工程 Java 人生第一份工作 MySQL Visual Basic 網格計算 Delphi UNIX 工程師 Perl Sun公司 2019-08-24

'中國象棋的七種武器——車馬炮兵象士將象棋七兵種的運用'

"作曲家七個音符，可以寫成千千萬萬的曲譜；美術家七種顏料，可以描出豐富多彩的畫圖。同樣，象棋的七個兵種，寥寥三十二子，如同七種武器一般，各盡其妙，在藝術家手中如同千軍萬馬；變化無窮：時而對面笑，雙杯獻酒；時而側面虎，回馬金槍；時而下馬槍，流星追月；時而馬後炮，一針見血；時而...

中國象棋七種武器宋宣公威力 2019-08-15

'保護個人數據集隱私，怎麼少得了Python和Pandas'

"全文共2256字，預計學習時長4分鐘圖片來源：unsplash.com/@dmey503工作中處理含敏感信息的數據集是有風險的。一旦這類數據在數據集中出現，數據科學家們應謹慎再謹慎。人們通常認為，處理敏感信息時，只要刪除姓名、ID及信用卡卡號就能保護個人隱私。這其實是誤解...

Python 算法機器學習人生第一份工作 2019-08-13

各個領域都在應用大數據，它的產業鏈都有什麼？

原創：倩倩博士「大數據近年來在各行各業遍地開花，對於行業調研分析、企業管理、市場佈局等多個方面都有重要的借鑑意義。」比如環保行業，智能環保，智慧環保...

大數據技術數據庫移動互聯網物聯網數據挖掘市場營銷運營商雲計算機器學習軟件 IBM 電腦小米科技阿里巴巴集團騰訊硬件英特爾 Google 華為公司算法 Facebook 設計電子技術智能硬件微軟百度阿里雲計算人生第一份工作京東商城環境保護甲骨文公司創業 2019-07-15

不踩坑的Python爬蟲：如何在一個月內學會爬取大規模數據

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣...

Python 網絡爬蟲數據庫 Scrapy MongoDB 編程語言知乎新聞瀏覽器 CSS HTML 技術機器學習人生第一份工作雪球網淘寶網拉勾網 2019-07-13

找到優秀銷售人才的七種武器｜阿爾法公社推薦

阿爾法公社━━━━━━重度幫助創業者的天使投資基金導語：一些創業者在創業早期對於技術和產品團隊更看重，會忽視對銷售團隊的建設，而本文作者，同時也是連續創...

阿爾法人生第一份工作創業七種武器時間管理技術跳槽那些事兒 SaaS 武器招聘證券投資基金軟件 2019-07-12

設計互聯網會員體系的七種武器，你看過哪一種？

互聯網經濟之中的會員制度，將會員與普通用戶做了極大的區分，可以將會員定義為穩定的（對應忠誠度），可識別的（對應榮譽感），可互動的（對應遊戲化和可傳播化）用...

七種武器騰訊遊戲設計人生第一份工作騰訊京東商城移動支付支付寶張一鳴網絡硬盤今日頭條經濟環境保護 U盤搜狗王健林農藥百度鑽石分眾傳媒網易有道 2019-07-05

如果數據也帶有種族歧視，我們該怎麼做？

如果數據也帶有種族歧視，你會怎麼做？算法當然是種族主義者，因為它是人類的產物。——斯蒂芬·布什（《新政治家》週刊美國版編輯）機器學習中的倫理道德大多數時...

算法機器學習軟件電腦刑法歷史威斯康星州追捕設計倫理 2019-06-27

數據科學家為什要用Git？怎麼用？

摘要：也許你在別的地方聽說過Git。也許有人告訴過你，Git只適合軟件開發人員。如果你是數據科學家，那麼Git其實對你很重要。本文作者希望能夠通過經驗分享讓你瞭解Git的重要性，以及如何在你的數據科學工作中使用它。什麼是Git？Git是一個分佈式版本控制系統，用於在軟件開發...

Git 軟件技術 Branch Origin 機器學習 GitHub 設計工作這一年 2019-06-10

「新聞串燒」菜鳥啟動天貓618，公佈物流“七種武器”...

文 | 來源於網絡菜鳥啟動天貓618，公佈物流“七種武器” 5月21日，菜鳥宣佈啟動天貓618。這是菜鳥智能物流骨幹網大幅提速後的第一個天貓618，菜鳥將...

天貓京東商城七種武器新聞投資亞馬遜桐廬跳槽那些事兒騰訊武器銀行台州浙江省農產品圓通速遞中通快遞申通快遞金華 2019-05-24

提升Abaqus求解效率的七種武器

作者簡介作者：江丙雲本文首發於iCAETube公眾號，技術鄰CAE學院授權轉載。江丙雲，上海交通大學博士，CAEMC-國際註冊CAE工程管理諮詢工...

並行計算七種武器可視化技術技術武器算法 ANSYS Python 硬件工程師上海 2019-05-23

財務人員造假慣使“七種武器”

常見的會計違法作假行為主要發生在記賬、轉賬、結賬、報賬、查賬等過程中，主要的表現行為有假科目、假事故、假收入、假掛賬、假結賬、假相符、假支出等。現列舉如下...

財會七種武器銀行經濟 2019-04-19

七種武器——當今世界足壇的前鋒們

1、長生劍——伊布伊布伊布劍名長生，有劍在手，心已長生。從馬爾默的初出茅廬到阿賈克斯的青春激盪，從都靈城的沉穩內斂到米蘭城的時尚與夢想，從巴塞羅那的失意沮...

西甲七種武器足球伊布拉希莫維奇梅西 2019-01-21

熱血傳奇：在瑪法人的心中，這“七種武器”是任何神兵都不能比的

瑪法大陸，神技不斷被施展，神兵不斷被發現，但在瑪法人的心中，有“七種武器”卻是任何神兵都不能比及的。“號令天下，誰敢不從？”曾幾何時，屠龍刀是多少人心目中...

七種武器熱血傳奇武器遊戲 2018-12-07

中國象棋的七種武器

作曲家七個音符，可以寫成千千萬萬的曲譜；美術家七種顏料，可以描出豐富多彩的畫圖。同樣，象棋的七個兵種，寥寥三十二子，如同七種武器一般，各盡其妙，在藝術家...

象棋七種武器宋宣公威力藝術 2018-12-04

財務人員做假慣使“七種武器”

一、假科目。財務人員不按財務會計制度規定將發生業務記入相應會計科目，在記賬過程中，不按照記賬憑證的內容和要求記賬，而是隨意改動業務內容，故意使用錯誤的賬戶...

財會七種武器經濟保險職場 2018-11-30

推薦中...