全球最受歡迎的機器學習和數據建模平臺kaggle簡介

相信對於想渴望進入機器學習領域的小夥伴們,總是為找不到合適的數據集和沒有案例參考而苦惱,之前我也是這種狀態,總是去網上查找中文的一些資料,卻總髮現零零散散而且沒有深入的分析。直到我在偶然間發現了kaggle平臺,頓時感覺蒼天啊,算是給我打開了一個天窗,這家公司的logo還是挺極客的,有沒有點google的味道,巧的是這家公司剛被谷歌收購,

全球最受歡迎的機器學習和數據建模平臺kaggle簡介

所以這上面也多了很多谷歌公司推出的數據競賽。當然除了谷歌,這裡還有各種各樣的數據集和企業組織的各種競賽,不乏獎金上百萬的競賽,如果能夠組團打怪拿下第一名,成為百萬富翁不是夢,哈哈,不過這是很困難的,需要擊敗全球數千只隊伍才能可能拿到獎金,所以作為初學者,我們還是老老實實從基礎打怪吧。那麼應該從哪些比賽入手呢,當然是帶有Getting Started和Playground標籤的比賽,這些比賽雖然沒有獎金,但難度適中並且很有趣味性,所以參賽的隊伍也是特別多,很適合初學者。裡面有非常經典的泰坦泰坦尼克號倖存預測和數字識別競賽,大家不妨一試!

全球最受歡迎的機器學習和數據建模平臺kaggle簡介

作為初學者我們應該怎麼打開這些數據集然後python或者R語言來分析和預測呢。下面著重來講講,首先呢,進入主頁後,我們會看到頁面上方的幾個按鈕,四個經常被點擊的按鈕我用紅線圈住並做了解釋,大家可以嘗試點進去看看都有什麼!

全球最受歡迎的機器學習和數據建模平臺kaggle簡介

點擊competitions按鈕可以看到都有什麼比賽,帶有Featured的難度最高,獎金也是最多的,往往是一些大公司為了提升業績或者影響力而設立的,最近正在舉行的兩項重要比賽是Passenger Screening Algorithm Challenge和Zillow Prize: Zillow’s Home Value Prediction (Zestimate),獎金都超過了100萬美金,是不是很有誘惑力,一旦獲獎那可真是立馬實現財務自由啊,哈哈, 言歸正傳,初來乍到的同學可能不知道獲取數據集,其實只要點擊對應的比賽,然後點擊data按鈕就能看到數據集了,可以看到數據的體積還是很大的,

全球最受歡迎的機器學習和數據建模平臺kaggle簡介

假如想要下載到本地,首先需要一臺最好帶有1T硬盤的電腦,其次呢,要運行如此大體積的數據,牛逼的配置也是必須的,推薦I7標壓處理器和GTX1080p顯卡,跑起來決定槓槓的,當然這是土豪的,作為苦逼的學生黨我們也不必困擾,kaggle提供了在線的數據處理平臺,提供python和R兩種環境,並且已經在雲端將各種機器學習包安裝好,同學們只需要大刀闊斧的寫程序即可(當然牆外的網站操作起來會比較慢,沒辦法),具體怎麼操作呢,跟著下面的動圖操作一遍吧!

全球最受歡迎的機器學習和數據建模平臺kaggle簡介

當然對於初學者,即使提供這樣一個優秀的開發環境我們可能還是不知道把自己的想法用代碼表現出來,這時不妨看看大神們的Kernel,相信會讓你大開眼界的。今天比較忙現先講到這裡吧,以後我會抽空講講怎麼進行在這個平臺上進行數據挖掘和分析,小夥伴們要記得關注我,我會持續不斷推出乾貨的!

相關推薦

推薦中...