大數據算法第三講：算法選擇

機器學習大數據軟件深度學習德塔精要德塔精要 2017-09-08

大數據算法第三講：算法選擇

通常說道算法，可能大家更多的是聯想到各種貪心算法，退火算法，蟻群算法，以及近些年來特別熱的機器學習和深度學習中的各種算法。但是面對這些浩如繁星的算法以及各種基礎算法的變種，在面對具體問題時，如何選擇有效的算法解決具體問題，是否有一些基本的處理問題的方法或者套路，本篇就大家梳理一下通常在面對具體問題時如何選擇算法的問題。

算法基礎知識

大數據算法第三講：算法選擇

如上圖所示，算法問題目前分為三大類，分別是監督學習、非監督學習和強化學習。

1監督學習

顧名思義，就是有監督信息的學習，這裡的監督信息指的是標籤信息。根據標籤信息學習的算法就是監督學習，例如預測一張人臉圖片是否為男女的分類算法，在訓練數據集中的男女標籤信息就是監督信息。

2非監督學習

非監督學習指的是不需要監督信息的學習算法，典型的對社交軟件中人群愛好的劃分問題，根據社交軟件中統計的多維度用戶的愛好信息，將用戶分為不同的用戶群體。可以使用聚類方法解決這一問題，解決這過程不需要標籤信息。

3強化學習

就是通過算法運行的結果在實際中的表現來衡量算法輸出的優劣進而優化算法。例如在指導用戶打flappy bird的遊戲中，如果算法輸出的下一步遊戲未終止（還能玩，沒死掉）則判定當前的算法輸出得到了一個獎賞得分，同理，如果遊戲終止，這算法的輸出是一個懲罰得分。強化學習的算法就是通過增大獎賞得分的概率，減少懲罰得分的概率的方向優化函數，使算法達到自學習的目的。使每一步的輸出都是獎賞的輸出。

根據解決問題進行劃分

大數據算法第三講：算法選擇

針對算法實現的方式的分類對解決問題的幫助是有限的，因此這部分我們討論一些針對具體問題該使用那種類型的算法。如上圖所示，預測一個類別就是分類問題，預測具體數值就是迴歸問題，發現數據的結構信息就是聚類問題，發現數據的異常點，就是異常值檢測問題。如下詳細描述各個問題。

1預測類別

通過利用收集到的數據信息，來預測位置事件屬於那一類別的問題就是分類問題。例如通過分析歷史數據來預測明天是否會下雨的問題，就是典型的分類問題。

2迴歸算法

與分類問題很相似，只不過迴歸問題用來預測具體的數值，例如根據歷史的數據信息來預測明天的氣溫就是典型的迴歸問題。

3聚類算法

發現數據的潛在規律，例如根據社交軟件中用戶的興趣愛好對社交人群進行劃分就是聚類問題，可以找出具有相似行為特徵的群體。

4異常檢測

對數據中存在明顯的異常信息進行檢測，例如信用卡交易數據中是否包含了異常交易數據，這部分就是找出數據中明顯與其他數據所表現的規律不同的信息。

具體算法選擇

大數據算法第三講：算法選擇

如上圖所示，在具體算法選擇上，基於Python的scikit-learn機器學習算法庫提供一套算法選擇方法，參考這一部分（不侷限於圖中的算法和方法，由於這張圖大多考慮了scikit中算法的實現情況）具體介紹一下算法的選擇如下：

1首先統計數據的容量當數據過小（小於50條）時，建議收集更多的數據，因為過小的數據訓練的算法容易受噪聲的影響比較大，算法效果一般。

2判斷是否為預測一個類別的問題，如果是並且訓練數據中包含標籤信息則為分類問題。

3如果是預測一個類別的問題但是訓練數據中不包含標籤信息則是一個聚類問題

4如果不是一個分類問題，是預測一個具體的數值問題一般為迴歸問題，如果不是預測具體數值對數據進行分析，挖掘數據中的異常值等問題，這時可以考慮一下是否為降維問題。

5對於分類問題，如果數據量小於100k,建議用線性SVM的方法，如果效果不好根據是否為文本信息考慮用貝葉斯方法或者K臨近分類法。如果數據量過大可以考慮加入正則化的方法來防止過擬合的問題來保證模型的穩定性。

6對於聚類問題，如果我們知道需要劃分的數據集個數一般使用Kmeans等聚類方法即可。如果無法獲知聚類的個數一般使用mean-shift的基於密度的算法可以對模型進行聚類評估。

7對於迴歸問題，如果數據量不大，直接使用SVM之類的迴歸即可，當然如果數據量過大可以考慮使用L1，L2的正則化方法來對權值進行正則化來防止過擬合問題的出現。這部分算法的選擇與分類問題很相似。

8對於降維問題，如果是考慮為分類問題的輸入維度進行削減，一般考慮LDA方法可以很好的對每個類別上的數據進行降維處理。如果單純對輸入維度進行降維，將原有維度信息轉移到新的維度（根據維度的正交化來達到降維的目的）一般使用PCA方法是比較主流的方法。

小結

對於算法的選擇，有時不能找到確定的方法，也就是說很難根據數據是使用場景就完全鎖定了那一個具體的算法，但是根據卻可以縮小到指定的幾個常用算法。然後通過測試集和訓練集在這幾個算法上做一些Demo。根據Demo反應的質量決定最終使用的算法那個。看似比較費力，其實是比較穩妥和精準的方法。

相關推薦

'《幽靈行動：斷點》b測大數據出爐玩家累計滅敵123億'

"育碧旗下新作《幽靈行動：斷點（Tom Clancys Ghost Recon: Breakpoint）》在9月5日至9月9日期間進行了Beta測試，今天育碧官方公開了這次Beta測試的大數據統計圖，為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...

幽靈行動育碧軟件大數據 PlayStation Xbox Xbox One 2019-09-19

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'手柄算是物理外掛嗎？看完這些你就知道了'

"說起遊戲手柄，大家可能會想到小霸王遊戲機或是主機遊戲。這些年隨著智能手機的性能越來越強，以前只能在旗艦機上流暢運行的手遊如今在中端機型也能夠做到了，手遊的火熱程度越來越高。但在一些很依靠操作技術的手遊裡，觸屏精準性欠佳，總覺得跟不上自己腦中的騷操作。於是手機遊戲手柄就誕生...

智能手機鼠標設計電子遊戲機物理軟件 Android 蘋果公司競速遊戲 Qjuediqiushengcijizhanchang 技術電子競技電腦藍牙 2019-09-19

'已經有一批中小企業嚐到了雲計算的甜頭，掉隊了怎麼行？'

"如果要劃分中國的雲計算髮展進程，那麼雲計算在中國走過的十年，可以分為：嬰兒期，青春期和成人期。2008年到2013年，是雲計算的“嬰兒期”，國內對雲計算真正瞭解的人不多，傾力投入的大公司和創業團隊數量也極為稀少，2013-2014年，UCLOUD、訊達雲、青雲、金山雲、七...

雲計算阿里雲計算阿里巴巴集團騰訊雲計算微軟硬件經濟 IBM 交通銀行銀行華為公司金山軟件金融智能家居京東商城青雲雲存儲騰訊甲骨文公司中國電信 Azure 技術投資 Google 亞馬遜交通軟件金山雲馬雲廣東今日頭條招商銀行創業 2019-09-19

'4.7萬億！《2019中國餐飲大數據白皮書》出爐透露了這十大機會點'

"在日前舉行的第二十屆中國美食節新聞通氣會上，中國飯店協會會長韓明介紹，今年1月份至7月份，全國餐飲業收入為24937億元，同比增長9.4%。預計全年消費規模將達4.7萬億元。那麼，對於食材企業而言，其中有哪些機會？結合中國飯店協會會長韓明的介紹以及2019中國餐飲大數據白...

快餐中式快餐大數據經濟美食博覽會投資關愛吃貨成長協會 2019-09-19

'如何找對人、選好貨、鋪對場？尼爾森快消零售大數據揭開真相'

"中國商報/中國商網（記者張濤）9月17日，尼爾森發佈了《揭祕高能市場：尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤，實現米級人貨場數據的立體融通。尼爾森表示，報告旨在幫助品牌商和零售商以最快速度瞭解市場...

大數據黃金技術 2019-09-18

'讓人遺憾！阿根廷輸球無緣世界盃冠軍兩大數據表現太差了'

"北京時間9月15日晚上，男籃世界盃決賽打響，阿根廷隊迎戰西班牙隊，經過四節比賽的激戰，阿根廷隊遺憾75-95輸給西班牙隊無緣冠軍，本場比賽阿根廷輸球可以說是輸在了自己的天生短板跟臨場發揮了，球隊兩大方面的表現表現有點糟糕！說阿根廷輸給了天生的短板，是因為球隊陣容的短板，那...

世界盃足球賽阿根廷西班牙大數據路易斯·斯科拉籃球的夏天越投入越精彩 2019-09-18

'利好達預期，大數據雲計算，明日鎖定兩隻票（300017）（300588）'

"過了個不錯的假期，皮一下！雖然節日接近尾聲，還是祝大家中秋佳節美美的，節後股票節節高升！九月行情已過半，從上半月市場整體表現看，不錯的開頭，滬指漲幅近5%，成功站上3000點關口，科技股、大金融、醫藥等輪動上漲，形勢一片大好。下半月，希望我的A股再接再厲，真正迎來金九行情...

大數據雲計算金融滬指海通證券數字貨幣石油我的第一部5G手機平安保險中國移動中威電子中信銀行歐洲中信建投證券黃金歐洲中央銀行無人機士蘭微中國人民銀行沙特阿拉伯 2019-09-18

'優信李成彬：大數據助力二手車行業成長變革'

"優信集團業務產品中心總經理李成彬日前在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長李成彬表示，近幾年行業變化巨大，以電商行業...

大數據二手車技術萬物嚐鮮節人生第一份工作京東商城 2019-09-18

'海盜遊戲《ATLAS》結合大數據制定新計劃，玩家50%時間在海上活動'

"作為全Steam最大的一款航海遊戲，海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉，它有著4.5萬平方公里的地圖以及900多個小島嶼，而玩家則會在這款遊戲裡面和4萬個玩家一起作戰，感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...

大數據航海 Steam 生存遊戲 2019-09-18

'手遊大數據：川渝玩家偏愛棋牌？王者榮耀等MOBA遊戲用戶粘性最高'

"今天（9.17）國內移動互聯網大數據公司QuestMobile，發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大，活躍用戶規模呈現持續向...

網絡遊戲 Qwangzherongyao 大數據市場營銷廣東移動互聯網消除類遊戲四川人生第一份工作 2019-09-18

'iPhonexr一點也不好！加七百買iPhone11更划算，五大升級很給力'

"文 | 考拉科技館排版 | 考拉科技館原創文章，禁止轉載，違者必究！今年的iPhone 11系列缺失5G讓不少果粉失望不已，但好在庫克也知道新iPhone 的不足，所以在iPhone 11系列的定價上做了不少妥協，特別是廉價版iPhone 11，其5499的起步價更是讓...

iPhone 照相機我的第一部5G手機軟件文章 2019-09-18

'前有虎魚，後有企鵝，快手入局遊戲直播勝算幾何'

"導語：電競遊戲的需求催生了遊戲直播，經歷了優勝劣汰，如今遊戲直播已經進入精細化運營。前有虎牙、鬥魚頭部平臺相繼上市，後有企鵝電競等添寫新故事。依靠短視頻起家的快手，也一改往日佛系作風，正面剛起了遊戲直播，硝煙四起，快手的勝算幾何？文| 朱柳香來源| Dolphin海豚智...

創作者來直播遊戲主播電子競技企鵝大數據陽光海洋任意門網易王思聰 2019-09-18

'《誅仙》贏下中秋檔後票房斷崖式下跌，肖戰算新一代流量之王嗎？'

"從今年中秋檔的精彩戰果，能得出“流量回春”的結論嗎？在剛剛過去的國產片唱主角的2019年中秋檔（9月13日至9月15日）中，內地電影市場報收綜合票房7.9億（分賬票房7.19億），相比去年的5.3億上漲明顯，中秋首日票房3.65億也刷新了歷年中秋檔單日紀錄（此前為2017...

中秋節小時代誅仙程小東中國大陸電影動畫柯南役所廣司中央電視臺電影頻道名偵探柯南我心中的老戲骨軟件張靜初雷佳音頭條女神中國中央電視臺孤島驚魂 2019-09-18

'淺析大數據技術及其行業產品'

"大數據，IT行業的又一次技術變革，大數據的浪潮洶湧而至，對國家治理、企業決策和個人生活都在產生深遠的影響，並將成為雲計算、物聯網之後信息技術產業領域又一重大創新變革。未來的十年將是一個“大數據”引領的智慧科技的時代、隨著社交網絡的逐漸成熟，移動帶寬迅速提升、雲計算、物聯網...

大數據技術數據庫數據挖掘 NoSQL 算法硬件設計雲計算物聯網 MapReduce 可視化技術投資 SQL GFS 人工智能風行網思科系統經濟歷史社交網絡 Google 2019-09-18

'“蓮蓉蛋黃”月餅銷量最好月餅大數據——銷量同比增52%'

"中新社北京9月12日電 (記者周銳)在中秋節來臨之際，月餅的銷售又一次成為熱門話題。京東大數據研究院日前披露了一份研究報告，展示了節前兩週京東平臺月餅銷售的相關情況。資料圖：上海民眾排隊購買鮮肉月餅。湯彥俊攝從總量上看，2019年中秋節前兩週全國月餅銷量是去年同期的1...

最圓不過中秋月蓮茸大數據蜜餞廣東糕點江蘇河北堅果芝麻豆沙上海奶黃湖北河南京東商城五仁浙江省安徽黑龍江省水果山東葡萄酒海鮮遼寧重慶福建酒貴州 2019-09-18

'市場 | 電力大數據如何服務社會？國網大數據中心促進數據增值變現落地應用'

"2019中國國際智能產業博覽會國家電網展區內，重慶市民劉華龍聚精會神地聽了工作人員講解，感慨地說：“之前與國家電網的接觸僅僅是買電，沒想到你們研發的產品還可以用來支撐政府決策，幫助中小企業解決融資難題。”國家電網有限公司在2019智博會上集中展示了57項泛在電力物聯網建設...

大數據經濟國家電網投資物聯網重慶金融能源數據挖掘人生第一份工作上海可視化技術算法南京安徽 2019-09-18

'計算機專業已過時？這五大“計算機專業”人才缺口大，畢業就高薪'

"隨著我國社會的發展，在大背景的情況下，計算機專業已經成為了一個熱門的專業。在當前巨大的就業壓力形勢下，擁有一個好的專業，在就業方面顯然是更有優勢的，而計算機就是一個很有優勢的專業。然而在社會上卻是有一些言論說，計算機專業已經飽和，並且是過時了，那麼這些言論是真實的嗎？我們...

電腦信息安全人生第一份工作大數據人工智能雲計算軟件工程 PHP Java 2019-09-18

'14日大數據：美國隊恥辱記錄彙總，老司機當選主席！MVP候選出爐'

"米切爾16分美國勝波蘭鎖第7；博格丹31分塞爾維亞排第51、14日之星：博格丹諾維奇31分4板3助7記三分當選男籃世界盃已經結束了9月14日的兩場排位賽，我們結合各球員的表現評選出了“今日之星”，塞爾維亞後衛博格丹-博格丹諾維奇當選。在塞爾維亞以90-81擊敗捷克的比賽中...

世界盃籃球賽德克·諾維茨基斯蒂芬·庫裡世界盃足球賽路易斯·斯科拉埃文·特納越投入越精彩法國男籃勒布朗·詹姆斯波特蘭開拓者布魯克林籃網維克托·奧拉迪波塞爾維亞丹佛掘金弗拉德·迪瓦茨詹姆斯·哈登印第安納步行者本·華萊士達米恩·利拉德安東尼·戴維斯波蘭凱里·歐文大數據喬爾·恩比德休斯頓火箭亞當·博格丹洛杉磯快船洛杉磯湖人科懷·倫納德密爾沃基雄鹿歐洲費城76人捷克比利·多諾萬傑梅因·奧尼爾蘇聯德國阿根廷阿根廷男籃奧林匹克運動會法國馬丁·喬爾俄羅斯新西蘭沙奎爾·奧尼爾舊金山加拿大 2019-09-18

'關注 | 2019世界計算機大會，看看大咖們都在聊什麼？'

"“計算萬物湘約未來”9月10日2019世界計算機大會在長沙梅溪湖國際文化藝術中心隆重開幕在開幕式與主論壇上，中國科學院院士、中國人民解放軍軍事科學院院長楊學軍，諾貝爾經濟學獎獲得者芬恩·基德蘭德等17位來自計算、網絡技術等相關領域的著名專家、學者作主題演講。共同探討計算...

電腦技術網絡安全機器人操作系統芬恩·基德蘭德黑客人工智能軟件智能手機楊學軍大數據設計經濟湖南跳槽那些事兒中國電子科技集團物聯網人生第一份工作諾貝爾獎諾貝爾經濟學獎大學長沙國防科學技術大學金融文化習近平藝術 2019-09-18

推薦中...