「機器學習」深度學習中消失的梯度

機器學習深度學習技術會技術的葛大爺會技術的葛大爺 2017-11-04

瞭解深度學習的同學可能知道，目前深度學習面臨的一個問題就是在網絡訓練的過程中存在梯度消失問題（vanishing gradient problem），或者更廣義地來講就是不穩定梯度問題。那麼到底什麼是梯度消失呢？這個問題又是如何導致的呢？這就是本文要分享的內容。

1. 消失的梯度

首先，我們將一個網絡在初始化之後在訓練初期的結果可視化如下：

「機器學習」深度學習中消失的梯度

在上圖中，神經元上的條可以理解為神經元的學習速率。這個網絡是經過隨機初始化的，但是從上圖不難發現，第二層神經元上的條都要大於第一層對應神經元上的條，即第二層神經元的學習速率大於第一層神經元學習速率。那這可不可能是個巧合呢？其實不是的，在書中，Nielsen通過實驗說明這種現象是普遍存在的。

我們再來看下對於一個具有四個隱層的神經網絡，各隱藏層的學習速率曲線如下：

「機器學習」深度學習中消失的梯度

可以看出，第一層的學習速度和最後一層要差兩個數量級，也就是比第四層慢了100倍。實際上，這個問題是可以避免的，儘管替代方法並不是那麼有效，同樣會產生問題——在前面的層中的梯度會變得非常大！這也叫做激增的梯度問題（exploding gradient problem），這也沒有比消失的梯度問題更好處理。更加一般地說，在深度神經網絡中的梯度是不穩定的，在前面的層中或會消失，或會激增，這種不穩定性才是深度神經網絡中基於梯度學習的根本原因。

2. 什麼導致了梯度消失？

為了弄清楚為何會出現消失的梯度，來看看一個極簡單的深度神經網絡：每一層都只有一個單一的神經元。下面就是有三層隱藏層的神經網絡：

「機器學習」深度學習中消失的梯度

　　我們把梯度的整個表達式寫出來：

「機器學習」深度學習中消失的梯度

為了理解每個項的行為，先看下sigmoid函數導數的曲線：

「機器學習」深度學習中消失的梯度

該導數在σ′(0)=1/4時達到最高。現在，如果我們使用標準方法來初始化網絡中的權重，那麼會使用一個均值為0標準差為1的高斯分佈。因此所有的權重通常會滿足

「機器學習」深度學習中消失的梯度

有了這些信息，我們發現會有

「機器學習」深度學習中消失的梯度

並且在進行所有這些項的乘積時，最終結果肯定會指數級下降：項越多，乘積的下降也就越快。

下面我們從公式上比較一下第三層和第一層神經元的學習速率：

「機器學習」深度學習中消失的梯度

比較一下

「機器學習」深度學習中消失的梯度

因此，梯度消失的本質原因是：

「機器學習」深度學習中消失的梯度

3. 梯度激增問題

舉個例子說明下：

首先，我們將網絡的權重設置得很大，比如ω1=ω2=ω3=ω4=100。然後，我們選擇偏置使得σ′(zj)項不會太小。這是很容易實現的：方法就是選擇偏置來保證每個神經元的帶權輸入是zj=0（這樣σ′(zj)=1/4）。比如說，我們希望z1=ω1∗a0+b1，我們只需要把b1=−100∗a0即可。我們使用相同的方法來獲取其他的偏置。這樣我們可以發現所有的項wj∗σ′(zj)都等於100*1/4=25。最終，我們獲得了激增的梯度。

4. 不穩定的梯度問題

不穩定的梯度問題：根本的問題其實並非是消失的梯度問題或者激增的梯度問題，而是在前面的層上的梯度是來自後面的層上項的乘積。當存在過多的層次時，就出現了內在本質上的不穩定場景。唯一讓所有層都接近相同的學習速度的方式是所有這些項的乘積都能得到一種平衡。如果沒有某種機制或者更加本質的保證來達成平衡，那網絡就很容易不穩定了。簡而言之，真實的問題就是神經網絡受限於不穩定梯度的問題。所以，如果我們使用標準的基於梯度的學習算法，在網絡中的不同層會出現按照不同學習速度學習的情況。

5. 參考文獻

Michael Nielsen,《Neural Networks and Deep Learning》

作者：Poll的筆記出處：//www.cnblogs.com/maybe2030/

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'「NLP」如何系統性的學習NLP，有三AI-NLP知識星球等你來'

"文 | 小Dream哥編輯 | 言有三星球開設的必要性時間過的很快，轉眼在有三AI開設NLP專欄已經2個月了。是時候總結下了，我們的NLP專欄按計劃更新了NLP中用的常用的機器學習模型，深度學習特徵抽取器從RNN講到了Transformer，馬上就要更新BERT。基本上聊...

人工智能機器人技術電腦工程師機器學習讀書 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'都應該瞭解的Python函數式編程+2019最新python學習資料分享'

"文末小編整理了2019最新流出的python400集學習資料希望對大家有幫助謝謝“ 函數式編程（Functional Programming）或者函數程序設計，是一種編程範型。”它將計算機運算視為數學上的函數運算，並且避免使用程序狀態以及變量對象。以上只是簡單的函數式編程...

Python 泛函編程編程範型 Linux C語言機器學習程序設計 2019-09-13

'「專利解密」騰訊遊戲是如何利用深度學習技術的'

"集微網消息，2019世界人工智能大會在上海開幕。會上，騰訊董事會主席兼CEO馬化騰在開幕式演講上重點講了關於AI的內容。他表示，一年來，在上海地區，騰訊在人工智能、雲計算等領域都有大幅投入。去年此時，騰訊華東總部在上海成立，目前已擁有超5000人團隊。騰訊電競的6大職業賽...

深度學習騰訊遊戲騰訊 2019世界人工智能大會技術上海人工智能王者聯盟雲計算通信算法馬化騰機器人 2019-09-12

'Deep CARs：使用Pytorch學習框架實現遷移學習'

"全文共13449字，預計學習時長26分鐘或更長圖片來源：https://www.pexels.com/photo/vehicles-parked-inside-elevated-parking-lot-63294/如何讓電腦識別不同的汽車品牌？想用手機拍任何一輛車就能知道...

GPU 人工智能電腦 Kaggle Google 中央處理器深度學習數據庫 JSON 硬件盜夢空間動物 2019-09-12

'學習人工智能 100 天后，我得出 5 個結論'

"2019 年 1 月底，我突然意識到，自己對人工智能瞭解非常有限。目前，人工智能對我們的影響越來越大。它保護我們的郵箱免受垃圾郵件的干擾，提供 Alexa 天氣信息更新，為亞馬遜消費者推薦更精準的商品或者為 Netflix 用戶提供觀影建議。每次當我們打開 Twitter...

人工智能機器學習數學深度學習算法吳恩達播客文化凱文·凱利 Google 設計 Facebook Coursera Twitter 達特茅斯學院 Alexa Internet 程序員技術機器人讓夢發生哈兒微軟科幻小說 Netflix 2019-09-12

'深度學習的完整硬件指南'

"原標題 | A Full Hardware Guide to Deep Learning作者 | Tim Dettmers 譯者 | linlh、呀啦呼（Tufts University）、Ryan222（重慶郵電大學）深度學習是非常消耗計算資源的，毫無疑問這就需要多核高...

深度學習 GPU 中央處理器硬件技術跳槽那些事兒德州儀器 Linux 心理學 Kaggle 市場營銷重慶 2019-09-12

'基於深度學習的人臉檢測和識別方法介紹'

"關注微信公眾號：人工智能前沿講習，重磅乾貨，第一時間送達人臉識別分人臉驗證（face verification）和人臉確認（face identification）；前者是指兩個人是不是同一個人，即1-to-1 mapping，而後者是確定一個人是一群人中的某個，即1-t...

深度學習人臉識別算法設計歐幾里得人工智能照相機大和族 Branch CNN 2019-09-11

'高一相差不大，高二始分高下，高三天上地下！（各年級學習攻略）'

"都說：“高一相差不大，高二始分高下，高三天上地下！”，其實不管是高一，高二，還是高三，現在都處在人生很重要的關口，高中孩子到底應該怎麼學，先來聽聽高中各年級老師發自肺腑的箴言吧！高一高一語文進入高一，同學們面臨的不僅是語文知識容量的增大，還面臨著學習思維及學習方法的轉換...

語文高考英語數學深度學習讀書物理高中語文高中數學算術中考詩歌不完美媽媽力學 2019-09-11

推薦中...