世界頂級AI大神綜述深度學習

機器學習深度學習人工智能神經科學計算神經科學產業智能官 2018-12-27

論文基本信息

文章名稱：Deep learning
作者：Yann LeCun, Yoshua Bengio& Geoffrey Hinton

作者簡介

圖丨Yann LeCun、Geoffrey Hinton、Yoshua Bengio和吳恩達

大神的個人狀態

Yann LeCun： Facebook公司AI研究部門首席科學家；紐約大學數據科學中心的創始人；紐約大學計算機科學，神經科學，電氣和計算機工程的白銀教授（Silver Professor）。
Yoshua Bengio：加拿大蒙特利爾大學計算機科學與應用學院的全職教授，蒙特利爾學習算法研究所（MILA）的負責人；CIFAR機器和大腦項目聯合負責人；統計學習算法加拿大研究主席。
Geoffrey Hinton：由於妻子病重，目前已停止工作。

研究方向

Yann LeCun：機器學習、計算機視覺、機器人、計算神經科學。同時對數據壓縮、數字圖書館、計算物理和所有機器學習的應用（視覺、語音、語言、文檔理解、數據挖掘、生物信息）感興趣。
Yoshua Bengio：致力於研究產生智能的學習原理。他帶領了一個龐大的研究生和博士後團隊。他的研究工作被廣泛引用（截至2017年9月谷歌學術統計超過8萬次引用，H指數101）
Geoffrey Hinton：深度學習、神經網絡等。

大神個人網站

Yann LeCun：http://yann.lecun.com/
Yoshua Bengio：http://www.iro.umontreal.ca/~bengioy/yoshua_en/index.html
Geoffrey Hinton：http://www.cs.toronto.edu/~hinton/

特別說明

在全世界範圍內，Yann LeCun、Geoffrey Hinton和Yoshua Bengio 三人被公認是深度學習領域“三駕馬車”。對於致力於發展人工智能的企業來說，他們三人的地位相當於三國時代的“臥龍鳳雛”——得一便可得天下。

為紀念人工智能提出60週年，三駕馬車首次合作了這篇綜述文章“Deep Learning”。該文章是深度學習三駕馬車共同撰寫的深度學習綜述性文章，發表於Nature。作為該領域的開創性先驅和領頭人，對截至2015年的深度學習的發展、狀態及未來做了系統性梳理和總結。

在深度學習領域，該文章無論是站的高度還是分析的深度，均為世界頂級的代表作，正本清源，開宗明義，不可不讀。

摘要

深度學習可以使具有多個處理層的計算模型實現對多層次抽取的數據表徵的學習。這些方法顯著提升了多個領域的極限性能，包括語音識別、視覺目標識別、目標檢測和許多其它領域，例如藥物發現和基因領域等。深度學習能夠發現大數據中的複雜結構，利用反向傳播算指導機器如何從前一層網絡計算表徵，從而改變每一層的內部參數。深度卷積網絡在圖像、視頻、語音和音頻等方面的處理能力上帶來了突破性進展。循環神經網絡在序列數據，如文本和語音方面的處理上，已經表現亮眼。

文章結構

精華內容

1.深度學習的核心特色與基本定義

深度學習是一種表徵學習（Representation learning）方法。把原始數據通過一些簡單的可是非線性的多層次表徵模型轉變成為更高層次的，更加抽象的表達。通過足夠多這樣的轉換組合，很複雜的函數也可以被學習。

深度學習的核心特色是這些多層結構中的特徵不是工程師手工設計的，而是通過一個通用目的的學習過程從數據中學習的。

2.深度學習在監督學習中應用的主要過程及優勢

描述了深度學習實現有監督類學習的過程，比如建立一個系統對圖像進行分類：

1）收集大量數據集，標註圖像中的目標；

2）構建深度學習網絡，以向量的形式表示學習到的內容；

3）計算一個目標函數，衡量類別的輸出分數和期望分數之間的誤差（或距離）；

4）通過自動修改內部的可調節的參數（通常被稱為權值），優化網絡性能；

5）大部分從業者都使用一種叫做隨機梯度下降（SGD）的算法進行權值調節，相比於其他優化技術，SGD的速度讓人驚奇;

6）訓練結束後，再通過不同於優化訓練的數據樣本測試系統的泛化能力，即對於未訓練過的新樣本的識別能力。

圖a：多層神經網絡對輸入空間整合，使得數據線性可分；
圖b：鏈式法則推導過程，展示了x和y的兩個微笑變化是如何組合在一起的
圖c：具有兩個隱層和一個輸出層的神經網絡的前向傳播過程
圖d：對比輸出與正確答案的誤差之後，神經網絡的反向傳播過程

深度網絡與傳統機器學習的重要區別：傳統機器學習做分類的時候需要大量的先驗經驗和領域知識對分類特徵進行設計，但是又很難保證特徵的泛化能力。而深度學習可以通過網絡來擬合特徵可以避免這種問題，因為深度學習通過多層結構從原始數據中得到的特徵可以同時提高特徵的區分選擇性和特徵不變形，而且可微小細節的特徵進行區分，如從白色的狼中區分出薩摩耶犬，同時忽略背景、亮度、姿勢等特徵。

3.反向傳播訓練方法：從被忽視到火爆

反向傳播算法的核心算法是用鏈式求導法則，即目標函數對於輸出層的導數（或梯度），通過該層向前一層求導實現，如此遞延一直傳遞到第一層（輸入層）。最後將特徵傳遞給一個非線性激活函數，可以得到分類的結果。當前最流行的非線性激活函數是ReLU，比起之前流行的tanh和sigmoid激活函數，ReLU的學習速度更快，可以讓深度網絡直接進行學習，而不需要做預訓練（pre-train）。

反向傳播方法其實在20世紀80年代就易用被用到多層網絡的訓練之中，即隨機梯度下降算法。但是直到2009年前後才被重新廣泛使用，這中間主要有兩個問題的突破。

一個是人們當時普遍認為反向傳播算法使用的梯度下降會使整個優化陷入局部極小困境，但實踐中發現，系統並沒有出現局部極小問題，而是總能夠得到差不多的解，尤其是在數據量很大的時候。
二是GPU的出現，使得訓練過程得到了10倍或20倍的加速。

4.卷積神經網絡的4個關鍵想法

局部連接、權值共享、池化以及多網絡層的使用

局部連接：每一層圖像的局部塊，被一個叫做卷積的濾波器權值映射到特徵圖中；
權值共享：每一層的特徵圖使用的過濾器是相同的，不同層使用不同的濾波器；
池化：卷積層的作用是探測上一層特徵的局部連接，然而池化層的作用是在語義上把相似的特徵合併起來，池化操作讓這些特徵對各種變化具有更好的魯棒性；
多層網絡的使用：通過多層網絡實現對低級特徵的組合，轉換為高級的特徵。

卷積網絡中的卷積和池化層靈感來源於視覺神經科學中的簡單細胞和複雜細胞。這種細胞就是多層結構的視覺迴路，比如猴子的視覺神經中160個神經元變化與卷積網絡相似。卷積神經網絡有神經認知的根源，他們的架構有點相似。

近年來，卷積神經網絡被廣泛應用於檢測、分割、物體識別以及圖像的各個領域。其中人臉識別是最重要的應用。值得一提的是，卷積神經網絡可以在像素級別對圖像進行識別。

5.分佈式特徵表示與語言處理

對比傳統語言處理方法的2個巨大（指數級）優勢

深度學習使用分佈式特徵表示（distributed representations），與傳統學習算法相比具有兩個極大的優勢：

1）分佈式特徵表示能夠很好的泛化能力，以適應新學習到的特徵值組合；

2）深度網絡的組合多層進行表示，可以更加容易的預測目標輸出，這是第二個巨大的優勢，即指數級的深度。

這種特性的一個經典場景就是語言處理，比如將本地文本的內容作為輸入，訓練神經網絡來預測句子的下一個單詞。傳統方法是基於邏輯啟發的，用符號表示實體，再用邏輯進行推理，這就需要對推理規則進行大量的手工設計，工作量巨大。而深度學習是基於神經網絡的認知，可以利用大量的活動載體、權值矩陣和標量的非線性和，建立語義的向量空間，實現簡單容易、具有“直覺”推理能力的語言處理效果。

6.循環神經網絡

適用於序列數據處理的方法

涉及序列輸入的任務，比如語音和語言，利用RNNs能獲得更好的效果，例如用於語言翻譯。RNNs一旦展開，可以看作一個所有層共享同樣權值的深度前饋神經網絡。雖然目的是學習長期的依賴性，但理論和經驗的證據表明很難學習並長期保存信息。

為了解決這個問題，一種採用了特殊隱式單元的LSTM（long-short-term memory networks）被提出，其自然行為便是長期保存輸入。LSTM增加了一種稱作記憶細胞的特殊單元，類似累加器和門控神經元：這個神經元在下一個時間步長中通過一個權值連接到自身，拷貝自身狀態的真實值和累積的外部信號，這種自連接是由另一個單元（遺忘門）學習並決定何時清除記憶內容的乘法門控制的。

LSTM網絡隨後被證明傳統的RNNs更加有效，尤其當每一個時間步長內有若干層時，整個語音識別系統能夠完全一致的將聲學轉錄為字符序列。目前LSTM網絡或者相關的門控單元同樣用於編碼和編碼網絡，並且在機器翻譯中表現良好。

7.深度學習的未來展望

無監督學習、增強學習、自然語言理解、複雜推理與表示學習結合

本文中主要討論了已取得巨大成功的有監督學習，但是作者們更加期待的方向在以下幾個方面：

1）無監督學習

2）CNN+RNN+增強學習=主動視覺學習系統

3）自然語言理解將被深度學習深刻的改變，深度學習將更好地理解整個文檔

4）AI未來的巨大進步將來自那些結合了複雜推理和表示學習的系統

8.具有重要意義的引用文獻