從小白到入門算法,學習經驗分享給你~

一個學子學習Python的回憶之路。

寫本文的目的,一是對研究生階段所學習的知識做一個總結,二是希望對那些剛接觸機器學習,準備往這個方向發展的同學們提供一些可借鑑的經驗。

1、入門Python,掌握數據分析常用工具

第一次接觸Python是在2016年4月,本科階段的工作差不多完成,就開始聯繫研究生階段的導師,希望能夠跟他做一些項目。他給我安排的第一個工作便是使用Python爬取空氣質量數據,並告訴我可以使用scrapy這個庫。我與Python的邂逅,便從這個爬蟲開始了。

如果想要深入瞭解一些Python的知識,推薦大家學習《流暢的Python》一書,封面如下。這本書我看了前面的九章,講的十分不錯,加深了自己對於Python裡面內存管理、常用函數、類等的認識。

從小白到入門算法,學習經驗分享給你~

除了Python的基礎知識,想要往數據分析、機器學習方向發展的話,還需要掌握一些常用的庫,包括Pandas、Numpy、Matplotlib、Sklearn等等。

關於前三個,推薦的書是《利用Python進行數據分析》:

從小白到入門算法,學習經驗分享給你~

關於Sklearn的使用,包括調用常見的機器學習算法、使用網格搜索尋找最優的參數,可以參考的一本書是《Python機器學習及實踐 從零開始通往Kaggle競賽之路》

從小白到入門算法,學習經驗分享給你~

如果上面的書你都看完了,我覺得算是入門Python數據分析了。

2、初識機器學習,反覆讀反覆看

第一次聽說機器學習這個名詞,大概是在2016年8月份,是我現在的舍友向我提到的,當時並沒有太在意,直到研究生階段開始,才慢慢有所接觸。當時身邊的人的普遍反應是,這傢伙大家都在學,特別能掙錢。也許當時自己也是想著能多掙錢,才會開始入門機器學習的吧。不過現在,已經開始慢慢把機器學習當做一種興趣,一種愛好去看待了。

想必大家都知道,入門機器學習,不得不看的三本書是吳軍老師的《數學之美》、李航博士的《統計學習方法》和周志華老師的《機器學習》,也就是所謂的西瓜書。

從小白到入門算法,學習經驗分享給你~
從小白到入門算法,學習經驗分享給你~

其他的算法,大家結合兩本書進行學習就可以了。值得一提的是,Xgboost和LightGBM是在面試階段比較常考的兩個機器學習方法,但是在上面的幾本書中都沒有涉及,我之前整理了一個簡單的帖子,希望對大家有所幫助(最後的參考資料裡面會有)。

從小白到入門算法,學習經驗分享給你~

如果你是剛入門機器學習的話,我的建議就是反覆看,反覆讀,直到你能不依靠書本將模型的原理解釋清楚為止。

3、面試不斷碰壁,Leetcode得刷,得多刷

理想很豐滿,現實很殘酷,在自己剛學了點機器學習知識的時候,就出去面試闖蕩,結果卻是不斷的碰壁,機器學習理論和經驗少是一方面,數據結構題也是一問三不知,能想到的,只有時間或者空間複雜度最差的那種解法。所以我說啊,Leetcode不僅得刷,還得多刷。

不過咱也沒必要著急,你得有一個計劃,比如每天做三道五道,日積月累才行。儘管我現在在面試的過程中還是有一些問題寫不出來,但大部分情況下,還是能夠得到一個比較優的解。

關於刷leetcode這事,你可以往兩個方向上走。一是按照從easy到medium到hard的方向。二是按照分類走,比如先刷樹相關的,再刷數組相關的,依次類推。我自己是用的第一種方式啦,不過從校招面試的經驗看,面試官關注的題主要集中在數組、鏈表、二叉樹和動態規劃上面,可以先把這幾部分的弄明白。

在語言選擇上,建議還是不要用Python吧,Python的小trick還是有點多的,就比如字符串表達式的值,我們用eval函數就可以得到,但是在真正面試的時候,這樣是絕對不行的,所以建議還是Java或者C++吧。畢竟這兩門語言,你總要掌握一門的。

除了在Leetcode上面刷題外,有兩本書可以給大家參考,一是《劍指offer》,二是《程序員代碼面試指南:IT名企算法與數據結構題目最優解》,封面如下:

從小白到入門算法,學習經驗分享給你~
從小白到入門算法,學習經驗分享給你~

4、相遇深度學習,論文積累是關鍵

關於深度學習,也是研一下才開始慢慢學習的,當時主要接觸的是CNN、LSTM這些個算法,對於一些比較深入的如GAN、Seq2Seq、Transformer之類的,還沒有接觸。

除此之外,不得不提的一本書是我們所謂的深度學習聖經,不過說實話,我覺得這本書雖然寫得好,但還是有一定閱讀難度的:

從小白到入門算法,學習經驗分享給你~

個人感覺,深度學習這東西,重在不斷積累和反思吧,多讀論文,多寫代碼。論文的話大家平常可以多關注PaperWeekly這個公眾號,代碼的話我建議如果論文給出了參考代碼,大家可以嘗試著去敲一敲,不僅加深自己對於論文思路的認識,還可以提升自己的動手實踐能力。

5、推薦與計算廣告,廣度優先VS深度優先

在整個研究生階段,我其實並沒有形成一個主要的研究方向,大家可能看我平時的公眾號推薦系統相關的東西比較多,但我並不是研究這個的,主要還是自己對這個東西比較感興趣,所以看的多了些。推薦系統的兩本入門書籍是《推薦系統實踐》和《推薦系統與深度學習》:

從小白到入門算法,學習經驗分享給你~
從小白到入門算法,學習經驗分享給你~

深度學習領域還是挺多的,如推薦系統和計算廣告、CV、NLP等等,這就引出了廣度優先VS深度優先的問題。個人感覺還是深度優先為主吧,確定好自己的一個研究方向,然後在這個領域進行深挖。不過同時,也要兼顧廣度,深度學習的東西都是相通的,比如Transformer最開始主要應用於文本領域,GAN主要應用於圖像領域,這兩種方法現在也都開始在推薦系統中使用。

最近自己要開始研究計算廣告方面的知識了,因為自己入職之後可能從事這一方面的工作,那還是給大家推薦兩本書吧,一本是大家所熟知的《計算廣告》,另一本是黃皮書《互聯網廣告的市場設計》,想要入門這個方向的同學,建議先看黃皮書,再看《計算廣告》一書。

從小白到入門算法,學習經驗分享給你~
從小白到入門算法,學習經驗分享給你~

6、Hive和Spark,數據處理的標配

Hive和Spark大家還是要學一下的,使用Hive來存儲數據,使用spark sql和Hive sql來處理數據,感覺是互聯網裡面的主流方式。關於hive,掌握一些常用的函數的使用方法,如concat_ws,row_number,case..when,if,get_json_object等等,對於spark sql,掌握其運行的基本原理,以及一些常見問題的處理方法。首先,學會如何處理數據傾斜,有時候因為一個數據傾斜問題,一整天都浪費在調試一個spark代碼中了,其次,學習如何儘量減少spark任務的空間佔用,同時加速spark任務運行速度,spark作業在線上調用時,會佔用公共資源,你的任務佔用的資源越多,別人佔用的資源就越少,同時,如果你的任務運行的快,也可以給別人的任務更多的空間。spark可以通過很多語言來實現,不過我建議還是學習一下scala吧,畢竟可以和java無縫銜接。除了spark和hive,掌握一定的excel知識也是必要的。

那麼這裡有兩本書推薦給大家,《Hive編程指南》和《Spark內核機制解析及性能調優》:

從小白到入門算法,學習經驗分享給你~
從小白到入門算法,學習經驗分享給你~

學習路線該怎麼走?不怕,老師推薦給你~

Python 全系列

第一階段:Python入門第二階段:Python 深入與提高第三階段:Python 網絡與併發編程第四階段:數據庫編程基礎第五階段:Linux 環境編程基礎第六階段:Python 核心特性第七階段:網頁編程基礎第八階段:Python_Django 框架第九階段:Python_Tornado 框架第十階段:Python_大型電商項目第十一階段:Python 爬蟲開發第十二階段:面試和成功求職的祕技第十三階段:入職後快速成長到CTO

大數據全系列

前言階段:什麼是大數據?什麼是人工智能?第一階段:linux 系統第二階段:大型網站高併發處理第三階段:Hadoop 分佈式文件系統:HDFS第四階段:Hadoop 分佈式計算框架:Mapreduce第五階段:Hadoop 離線體系:Hive第六階段:Hadoop 離線計算體系:Hbase第七階段:Zookeeper 開發第八階段:elasticsearch 分佈式搜索第九階段:CDH 集群管理第十階段:Storm 實時數據處理第十一階段:Redis 緩存數據庫第十二階段:Spark 核心部分:Spark Core第十三階段:機器學習第十四階段:機器學習:推薦系統項目第十五階段:面試和成功求職的祕技第十六階段:入職後快速成長到CTO

人工智能

預科階段:快速實戰入門第一階段:Python語言基礎與補充數學知識第二階段:經典機器學習算法與案例實戰第三階段:其它機器學習算法與案例實戰第四階段:海量數據挖掘與實戰第五階段:深度學習原理架構與實戰第六階段:項目-Recommend推薦系統第七階段:項目-NLP自然語言處理第八階段:項目-Image圖像識別第九階段:項目-GAN對抗生成網絡及用戶畫像第十階段:面試和成功求職的祕技第十一階段:入職後快速成長到CTO

學習路線雖然有了,是不是缺少對應的學習視頻?這個更不用擔心了,老師已經準備好了,大家快來獲取吧,不過比較麻煩一點,希望大家不要介意,因為想要成功的人是不會嫌麻煩的,要得到一些東西,你就必須付出一些辛勤和汗水。

下面給大家分享學習視頻:

從小白到入門算法,學習經驗分享給你~

大傢俬信老師(學習)就可以了

相關推薦

推薦中...