作者:陸勤
人工智能、機器學習和深度學習,已成為能夠給我們工作、生活和思維帶來變革的認知和科技。
面對海量數據,利用人工智能、機器學習和深度學習創造價值是一件既有挑戰又有意義的事情。
本文探討如何學習和應用機器學習這個主題。
0 為什麼要學習和應用機器學習
找個合適的理由,告訴自己為什麼要學習和應用機器學習。
機器學習是非常有用的,Jeremy Howard先生在TED做了一個演講《how machine learning is changing this world.》,Jeremy分享了機器學習的許多應用和深度學習,同時討論機器學習影響世界的幾種方式。
1 選擇一門機器學習語言
選擇一門能夠快速實現和應用機器學習的語言,R或者Python是個不錯的選擇,建議擇其一學習和應用,至於如何選擇,可以閱讀這篇文章:《which is better-R vs python》
關於R和Python這塊,首先學習它們的基礎知識、數據結構和常用庫;然後就是根據具體問題利用R或者Python實現機器學習解決問題。
2 學習基本的描述性和推斷性統計
統計學是研究和應用數據的學科。
學習基本的描述性和推斷性統計,對數據理解、數據準備和數據建模,都是有必要的。
R和Python與統計學相關的庫。
R:stats
Python
Scipy
Numpy
Pandas
3 數據探索/清洗/準備
對原始數據的特徵工程和數據清洗質量是一個專業機器學習人士和普通機器學習人士的主要區別。
垃圾進,垃圾出。
這個階段是需要花費大部分時間和精力的。
如何做數據探索、清洗和準備,可以閱讀這些文章
R語言做數據探索
Python語言做數據探索
單變量和多變量分析
缺失值處理
異常值檢測
特徵工程
4 機器學習知識
機器學習知識的各種資源非常豐富,請選擇適合自己的學習方式。
兩門經典課程,推薦擇其一,深入學習和理解。
《Andrew Ng: Machine learning course》
《Prof. Yaser Abu-Mostafa :Learning form Data course》
認真地學習完其中一門課程,對機器學習基本知識、常用算法和典型應用有一定的認知。
5 參加kaggle的數據競賽
當你不知道怎麼想和做時,請先看看別人是怎麼想和做的,吸收別人的精華,提升自己的認知。
kaggle的一個經典的案例:
《Titanic: Machine Learning from Disaster》
6 機器學習進階
機器學習的進階領域:集成模型、深度學習和大數據機器學習
集成模型
“三個臭皮匠,勝過一個諸葛亮”
深度學習
深度神經網絡,自動提取有效特徵
大數據機器學習
大數據之大,一是樣本數之大,二是特徵數之大,這兩大給機器學習帶來新的挑戰和機遇。
7 實踐-實踐-再實踐
實踐出真知!
場景+數據+算法 = 引爆點
您在閱讀中,有什麼建議或者想法,請留言。