機器學習如何入門？Kaggle CTO剛剛寫了份詳細的指南

機器學習 Kaggle Quora 人工智能量子位 2017-04-02

李林編譯整理
量子位出品 | 公眾號 QbitAI

上週，Ben Hamner很忙。

作為全球最大數據科學和機器學習競賽平臺Kaggle的聯合創始人&CTO，他在Quora上參加了一場AMA，還參加了一場機器學習會議。會議我們最後再說，先說AMA：它是ask me anything的首字母縮寫，美國reddit、Quora等社區經常邀請名人蔘加這種在線問答活動，比如說蓋茨就每年都會在reddit上搞AMA。

AMA中得票最高的答案是“研究機器學習和人工智能最好的資源是什麼？”Hamner在答案中把機器學習的入門過程分成8步，寫了一份詳細的指南。量子位將要點編譯如下：

你很幸運，要開始研究機器學習和人工智能，現在是比任何時候都好的時機。這個領域近年來在快速發展，專業人士發佈並改進著高質量的開源軟件工具和庫，每天都有新的線上公開課和博客文章出現。機器學習在各個領域每天貢獻著數十億美元的營收，帶來了無與倫比的資源和大量工作機會。

這也意味著，你在剛接觸這個領域時會有被淹沒的感覺。下面是我的入門方法，如果你在研究過程中卡住了，去Kaggle上搜索一下，很可能有人遇到過和你類似的問題，如果沒有，可以在我們的論壇上發帖提問，這是個獲得指引的好辦法。

1. 找一個你感興趣的問題

從一個你想解決的問題入手，會更容易集中精力，也更有學習的動力，這種方法比照著一份長得嚇人的散亂知識點清單來學習要好很多。和被動地閱讀相比，解決問題也能驅使你深入到機器學習之中。

好的入門問題有以下幾個標準：

涉及你個人感興趣的領域；
有現成的數據適合用來解決這個問題，否則你需要花大把的時間來找數據；
你能夠在一臺機器上流暢地處理這些數據，或者它的子集。

想不出來要解決的問題？上Kaggle嘛……Kaggle有個入門系列競賽，提供了適用於新手的機器學習問題。推薦從泰坦尼克號乘客的生還概率預測（https://www.kaggle.com/c/titanic）開始。

2. 做一個快速、髒亂、黑客範兒的端到端解決方案

初學者很容易陷入一個實現細節之中，或者為錯誤的機器學習算法仔細調試，你需要避免這種錯誤。你的目標，是儘可能快地把端到端的基本解決方法做出來：讀入數據、把它處理成適用於機器學習的格式、訓練一個基本的模型、得出結果、評估它的性能。

3. 改進你的解決方案

現在，基本功能已經實現，發揮創造性的時候到了。你可以嘗試對最初解決方案中的每個組件進行優化，然後測試修改帶來的作用，搞清楚該在哪個部件上花時間。通常來說，獲取更多的數據或者請洗數據之類的預處理步驟，比優化機器學習模型有著更高的投入產出比。

這些步驟可能需要你親自上手處理數據，比如說通過檢查特定的某一行、通過可視化方法來查看數據分佈等方式，來更好地理解數據的結構和怪癖。

4. 寫出來你的解決方案&分享

想要獲得別人對你的解決方案的反饋，最好的方法就是寫出來並分享。寫出你的解決方案意味著你會以新的方式去看它，並加深理解，也能讓別人理解你的工作並做出反饋、幫你學習進步。寫作也有助於開始建立機器學習作品集，來展示你的能力，對找工作很有幫助。

我們以Kaggle數據集和Kaggle Kernels為例，它們分別可以用來分享數據和解決方案，從而獲得反饋，看其他人如何對你的問題進行擴展。這也是豐富你的Kaggle資料的辦法。

5. 在更多問題上重複1-4步

現在，你已經完成了一個自己喜歡的問題，接下來應該在不同領域的問題上多試幾次。

你在入門的時候是不是用了表格式的數據？選一個要用到非結構化文本的問題，再試試解決圖像相關的問題。

你是不是先解決了一個結構化的機器學習問題？很多有價值的創造性工作，一開始都有賴於從寬泛的商業或研究對象找到一個定義清晰的機器學習問題。

Kaggle競賽和數據集為機器學習的兩個方面：定義清晰的機器學習問題和原始數據來源提供了一個良好的起步點。

6. 認真地參加Kaggle競賽

和上千人比賽著去解決同一個問題，盡力做到最好，是一個很好的學習機會，這能夠驅使你在這個問題上不斷迭代，找到解決問題的有效途徑。

關於其他人是怎樣解決問題排除bug的，針對某個競賽的論壇上有著豐富的資源，kernels體現了其他人對數據的洞察，並且給你提供了一個輕易的上手途徑，獲勝者的博客文章則展示了什麼樣的方法效果最好。

Kaggle競賽提供了和別人組隊的機會，我們的社區成員有著不同的背景和技能，每個人都能從其他人身上學到東西。

7. 在專業領域應用機器學習

這讓你在大部分時間中都能接觸到機器學習，有助於自我提升。決定你想要成為什麼樣的角色、建立和這個角色相關的個人項目列表，是一個很好的開端。

如果你還沒準備好應聘機器學習相關職位，也可以在你現在的崗位上開闢新項目、尋找提供諮詢的機會、參與黑客馬拉松和數據相關的社區服務機會、這些都能幫你在機器學習領域立足。專業領域的工作通常需要比較強的編程能力。

在專業領域應用機器學習，有這些價值的機會：

將機器學習用於生產系統；
專注於機器學習研究，將技術發展的最高水平向前推進；
用機器學習進行探查、分析，來提升你的產品和商業決策。

8. 幫助別人研究機器學習

教人學習能幫你鞏固對基礎概念的掌握。教別人有很多不同的方法，你可以根據自己的風格選一個：

寫論文；
做演講；
寫博客文章和教程；
在Kaggle、Quora等網站上回答問題；
親自指導；
在Kaggle Kernels和GitHub上分享代碼；
講課；
寫書。

One More Thing...

這次AMA，其實Hamner最想談的是Kaggle的未來，他在資料裡列出了自己願意回答的話題：

Kaggle的未來
開放數據
Kaggle競賽
機器學習和AI
數據科學工作流程
產品和工程
Kaggle為何加入Google

可惜Quora上的群眾對Kaggle的未來似乎並不關心，反正競賽照常舉行，數據集照常提供，量子位也不知道這個未來該從何問起。

不過，吃瓜群眾不關心Kaggle的未來也沒關係。週五，Hamner還去紐約的機器學習大會MLConf上做了以《Kaggle的未來：我們從何處來，到何處去》的演講，也就是我們開頭說的那場會議。

在量子位（公眾號：QbitAI）對話界面回覆“Kaggle”，我們會把Hamner這次演講的PPT發給你。

今天AI界還有哪些事值得關注？
在量子位（QbitAI）公眾號會話界面回覆“今天”，看我們全網蒐羅的AI行業和研究動態。筆芯❤~
另外，我們建了一個機器學習入門群，希望和大家互相幫助、共同進步。歡迎加量子位小助手的微信：qbitbot，介紹一下你自己，符合要求的，我們會拉你進群。

相關推薦

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'新藥研發、診斷疾病…機器學習如何改變醫療行業？'

"全文共1785字，預計學習時長3分鐘圖片來源：pexels.com/@pixabay醫療行業正生成著大量數據。如今，傳感器生成數據等新式數據收集方法為醫療行業贏得了領先地位。利用這些數據，可以用更低的成本提供更優質的醫療服務，並提高病人的滿意度——只要有機器學習(ML)技...

人工智能技術大數據圖像處理 Hadoop IBM 自然語言處理軟件癌症檔案腫瘤 2019-09-05

'聊一聊大家都關注的機器學習的可解釋性，這個太重要了'

"隨著AI和機器學習的發展，越來越多的決策會交給自動化的機器學習算法來做。但是當我們把一些非常重要的決定交給機器的時候，我們真的放心麼？當波音飛機忽略駕駛員的指令，決定義無反顧的衝向大地；當銀行系統莫名其妙否決你的貸款申請的時候；當自動化敵我識別武器系統決定向無辜平民開火的...

機器學習算法人工智能技術可視化技術 2019-09-04

'半路出家，如何從0到1學習機器學習？'

"作為一個數學系出身，半路出家開始搞機器學習的人，在學習機器學習的過程中自然踩了無數的坑，也走過很多本不該走的彎路。於是很想總結一份如何入門機器學習的資料，也算是為後來人做一點點微小的貢獻。▌前言在 2016 年 3 月，隨著 AlphaGo 打敗了李世乭，人工智能開始大規...

人工智能 SQL 操作系統數學算法 Hive Linux 腳本語言推薦技術工程師文章電腦讀書騰訊新聞知乎大數據人生第一份工作 2019-09-02

'想做程序員？看了這五種編程入門方法，學習和玩耍一樣'

"程序員要精通一門語言，還是要掌握多門語言?對於這個問題，公說公有理，婆說婆有理。技術更新太快，精通一門編程語言已經實屬不易，又怎麼好意思說精通多門語言呢?不過呢，當你精通一門語言同時，涉獵一下其他語言無傷大雅。這對於編程思想也是大有裨益的。每門設計語言都有其獨特的設計思想...

程序員 Python 技術 Django 工程師 jQuery Java Flash 網絡爬蟲人工智能數據庫 JavaScript 算法 Spark Smalltalk HTML 設計模式數據挖掘 Perl Linux 深度學習設計大數據分佈式計算 Storm MapReduce Scrapy 算術 JSP 編程語言 CSS Hadoop Nginx 電子商務 HBase Ruby 2019-08-29

'你是否對機器學習模型如何工作感到好奇？它們是否值得信任？'

"全文共1925字，預計學習時長4分鐘圖片來源：unsplash.com/@multamedia你是否對機器學習模型如何工作感到好奇？這些模型內部是如何運作的，它們是否值得信任？本文將全面概述什麼是可解釋人工智能（XAI），以及為什麼需要XAI。讀完本文後，你應該能夠理解X...

人工智能金融癲癇機器人人生第一份工作歷史 2019-08-28

'深度學習-機器學習從入門到深入全套資源分享'

" 深度學習、機器學習從入門到深入，全套資源分享。涉及深度學習、機器學習數學、算法基礎理論、實戰和工程開發相關最佳資源。深度學習常用模型相關教程，深度學習模型優化、調參相關技巧；深度學習常用的框架，公開數據集、國際頂級會議等相關資源。本文內容整理自網絡，原文地址：http...

深度學習人工智能 Kaggle 吳恩達算法工程師數學技術自然語言處理大數據跳槽那些事兒電腦 Google Coursera 麻省理工學院 2019-08-24

'當Git和Git-LFS無法解決機器學習復現問題時，是時候祭出DVC了'

"選自towardsdatascience作者：David Herron機器之心編譯參與：高璇、王淑婷為解決機器學習可復現性的問題，很多人會用 Git 和 Git-LFS，但這二者並不足以解決這個難題。為此，作者在文中提出了 DVC 並列出了它的三大優勢：精準記錄時間點和使...

Git 人工智能軟件 GitHub 軟件工程硬件 2019-08-19

'如何有效降低數據集的隱私風險，開展機器學習？'

"全文共2256字，預計學習時長4分鐘圖片來源：unsplash.com/@dmey503工作中處理含敏感信息的數據集是有風險的。一旦這類數據在數據集中出現，數據科學家們應謹慎再謹慎。人們通常認為，處理敏感信息時，只要刪除姓名、ID及信用卡卡號就能保護個人隱私。這其實是誤解...

機器學習算法人生第一份工作歷史 2019-08-14

'人工智能和機器學習將如何為數據中心提供幫助'

"有些人認為，人工智能(AI)理解和解決問題時近乎具有神祕的力量。而人工智能廣泛應用於人們日常生活的許多領域，因此，實現這一目標的硬件開始在數據中心中應用。數據中心本身存在一系列複雜的問題，包括優化和預測。那麼，如何採用人工智能這種神奇的技術來改善數據中心運營?將人工智能應...

人工智能技術 IBM Google 華為公司工程師歷史加拿大人生第一份工作運營商算法硬件大學市場營銷 2019-08-14

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'Python做人工智能？讓電腦自己學會玩遊戲，實戰帶你入門機器學習'

"前言之前本號就有一篇文章是關於用Python編寫一個"拿石子"遊戲，一個能讓你與電腦對弈的小遊戲，但其中電腦玩家的選擇是隨機的，意味著你是與一個智障電腦在玩遊戲。今天我們更進一步，編寫程序讓這個智障電腦可以自己與自己不斷玩這個"拿石子"遊戲，最終學會如何贏得這個遊戲。不僅...

電腦 Python 人工智能文章 GitHub 算法小遊戲 2019-08-04

'機器學習之聚類分析，如何分析用戶？'

"什麼是分析分析（cluster analysis）是常見的數據挖掘手段，其主要假設是數據間存在相似性。而相似性是有價值的，因此可以被用於探索數據中的特性以產生價值。常見應用包括：用戶分割：將用戶劃分到不同的組別中，並根據簇的特性而推送不同的。廣告欺詐檢測：發現正常與異常的...

機器學習算法數據挖掘 2019-07-20

'新的AI助手角色出現機器學習如何塑造軟件開發'

"原創不易請隨手點擊關注本文由Rehoo團隊Tin原創，無授權禁轉！(圖片來自網絡)圖片來自網絡谷歌首席執行官桑達皮採也談到“AI自動編寫自己的軟件”。當然，如果你認為軟件開發只是創建經常重複的代碼片段，那麼人工智能的快速發展會讓軟件工程師停下來嗎？傳統上，開發人員將軟件...

人工智能軟件工程師軟件工程技術 Google 設計跳槽那些事兒市場營銷集成開發環境 2019-07-16

知識圖譜與機器學習｜KG入門 -- Part1 Data Fabric

語義和Data Fabric的新進展如何幫助我們更好地進行機器學習介紹如果你在網上搜索機器學習，你會找到大約20500萬個結果。確實是這樣，但是要找到適合...

機器學習算法力學數學文章 2019-07-14

在機器學習領域的華山論劍中，Google 打敗了英偉達

2019 年 7 月 11 日，Google 宣佈旗下的 Google Cloud Platform（GCP）在最新一輪的 MLPerf 基準競賽中創造了...

Google 英偉達人工智能硬件 GPU 軟件吳恩達英特爾超級計算機技術 Twitter 固態硬盤推薦技術工程師斯坦福大學中央處理器設計大學超微半導體數學 2019-07-12

來自麥肯錫的機器學習的指南

CDA數據分析研究院出品，轉載須授權它不再是人工智能研究人員和亞馬遜，谷歌和Netflix等天生的數字公司的專利。機器學習是基於可以從數據中學習而不依賴於...

人工智能麥肯錫公司技術 Google 高能小子終極裝備電腦算法通用電氣人生第一份工作斯坦福大學軟件跳槽那些事兒 IBM 銀行大數據 Netflix 設計體育不完美媽媽 NBA 歐洲 2019-07-12

不知道怎麼入門人工智能，不懂機器學習是什麼？我在這裡幫你解惑

大家好，我，工科碩士出身，入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在就...

人工智能 Python 算法數學技術電腦人生第一份工作大數據語音識別技術數據挖掘 Facebook Google 神經科學金融 2019-07-08

用機器學習進行時間序列預測該如何避免那些常見“陷阱”？

點擊上放關注，All in AI中國在我的其他帖子中，我談過很多主題，例如：如何將機器學習和物理結合起來，以及機器學習如何用於生產優化以及異常檢測和狀態監...

人工智能文章 Python 隨機森林軟件算法語音識別技術歷史開源軟件 2019-07-01

菜鳥級機器學習入門（附代碼實例）

作者：Ben Sanders翻譯：吳慧聰校對：鄭滋本文約2400字，建議閱讀10分鐘。本文將簡要介紹什麼是機器學習，其運作原理，以及兩個主要的機器學習的算...

人工智能算法電腦產品經理讀書市場營銷 2019-07-01

推薦中...