瑞為AI小講堂|從感知機到卷積神經網絡-中篇

機器學習 深度學習 人工智能 大數據 瑞為技術Reconova 2017-06-07

前集回顧:上回我們介紹了神經元,單層神經網絡和多層神經網絡。它們可以看做深度學習的史前時代。

本期,我們將介紹卷積神經網絡和深度學習的起源……

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

卷積神經網絡

早在1962年,Hubel & Wiesel就提出了視覺皮層的功能模型,從簡單細胞到複雜細胞再到超複雜細胞。

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

1980年,受視覺皮層的功能模型的啟發Fukushima提出神經認知機,已經具備了卷積網絡的基本要素,但由於採用了自組織方式進行無監督的卷積核訓練,因此並不是真正意義上的CNN。

1989年,Yan LeCun等人提出了將反向傳播算法應用於手寫郵政編碼數字的識別模型,這是歷史上第一個卷積神經網絡(CNN)模型。它包含3個隱藏層,每個響應圖(Response map)之間共享卷積核權重。

論文中提到了幾個非常重要的概念和觀點,包括正切激活函數收斂更快,使用Sigmoid歸一化解決神經元飽和問題,歐式損失函數(mean squared error),網絡參數初始化方法,隨機梯度下降(SGD)比直接梯度下降收斂更快等。幾乎涵蓋了現代神經網絡訓練的全部核心概念。

緊接著,1998年,LeCun提出LeNet,併成功應用於手寫數字識別。

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

異或問題的解決使得神經網絡(MLP,CNN)在多個領域中進行應用,人們認為神經網絡可以解決很多問題。神經網絡研究又一次迎來熱潮。不過,由於神經網絡仍然存在很多訓練困難:

l 難以優化:陷入局部最優解,陷入神經元的飽和區域(梯度消失問題)使得神經網絡的優化較為困難

l 數據不足:缺乏足夠多的訓練數據

l 計算資源(速度)不足:使用了BP算法的神經網絡訓練仍然耗時太久

l 調參困難:眾多超參數需要調整,需要經驗和技巧

90年代中期Vapnik等人發明了SVM(Support Vector Machines,支持向量機)算法,它無需調參、高效、全局最優解,比神經網絡擁有巨大的優勢。除了SVM還有決策樹,Boosting和最大熵(如 logistic regression)等方法被提出,這些模型結構上大致可看成具有一層隱藏層節點或沒有節點,於是統稱為淺層學習模型。手工設計特徵+淺層學習模型成為主流。隨著互聯網高速發展,淺層模型在互聯網大數據分析與預測中獲得了巨大成功。而神經網絡研究則由於訓練問題在20世紀末再次進入寒冬。

深度學習

2006年, Hinton等人提出通過分層無監督預訓練的策略來解決多層網絡收斂困難的問題 ,即先對網絡進行“預訓練”(pre-training)讓網絡參數找到一個較好的值,再使用“微調”(fine-tuning)對網絡進行優化訓練,這樣做可以大幅減少多層網絡的訓練時間。同時,指出多隱藏層的人工神經網絡具有優異的特徵學習能力,對數據有更本質的刻畫,利於分類和可視化(深度學習可以通過構建具有很多隱藏層的學習模型從海量訓練數據中學得更有用的特徵證,提升預測準確性。與人工規則構造特徵相比,從大數據中學習來的特徵更能夠刻畫數據的內在信息)。他還給多層神經網絡相關的方法賦予新的名稱“深度學習”,開啟了深度學習的浪潮。

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

2012年,Hinton的學生Alex提出了著名的AlexNet,不僅提出了一些新的技術(如ReLU和Dropout等)而且使用了GPU硬件來加速大量圖片數據的訓練。在當年的ImageNet圖像分類競賽中,top-5錯誤率比上一年的冠軍下降了近十個百分點,充分證明了多層神經網絡的優越性。

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

研究表明,參數量一樣的情況下,更深的網絡比淺層網絡具有更好的效果。神經網絡本質是模擬特徵與目標的真實函數關係,更深的網絡會有更多的參數和非線性,具有更強的模擬能力或者學習容量。從2012年至今,每年獲得ImageNet冠軍的網絡層數都逐年增加,ResNet達到了152層。也正是從AlexNet開始研究人員在網絡結構上做了各種探索,CNN朝著不同方向演化。

瑞為AI小講堂|從感知機到卷積神經網絡-中篇

———未完待續———

  1. cns-alumni.bu.edu/~slehar/webstuff/pcave/hubel.html

  2. Fukushima, Kunihiko. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics 36.4 (1980): 193-202.

  3. LeCun, Yann, et al. "Backpropagation applied to handwritten zip code recognition." Neural computation 1.4 (1989): 541-551.

  4. LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.

  5. Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. "Reducing the dimensionality of data with neural networks." science 313.5786 (2006): 504-507.

  6. Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets." Neural computation 18.7 (2006): 1527-1554.

  7. Bengio, Yoshua, et al. "Greedy layer-wise training of deep networks." Advances in neural information processing systems 19 (2007): 153.

相關推薦

推薦中...