神經網絡與深度學習概述第八章循環神經網絡RNN概述

機器學習深度學習文章科普小AI諮詢小AI諮詢 2017-11-02

RNN 是兩種神經網絡的縮寫，循環神經網絡(Recurrent Neural Network)，遞歸神經網絡（Recursive Neural Network）。其實從廣義上來講循環神經網絡也是遞歸神經網絡，可以認為 Recurrent Neural Network 是時間遞歸神經網絡，Recursive Neural Network 是結構遞歸神經網絡。本文主要講解循環神經網絡，因此所說的 RNN 默認指循環神經網絡。

循環神經網絡的概念

考慮人類的思考步驟，或者叫思考時序，不會每一秒鐘都從頭開始思考。比如，當你看本文時，會根據以往學習的知識理解文章內容，你也會從上下文中產生聯想幫助你更好地理解文章。也就是說前後的輸入是有關聯的，再比如，我們輸入一句不完整的話，讓機器幫助我們判斷接下來最有可能出現的一個詞：

“天氣預報說馬上要下大雨了，待會兒出門一定要記得帶_____。”

根據前面的內容判斷，要填入的詞很大可能是“雨傘”，這就是序列數據，也就是前後的輸入存在一定關聯關係。

人類大腦思考的這一大特點，無法在傳統的神經網絡中找到類似的結構，這也是一般神經網絡的一個缺點。例如，假設你要將電影中每個時刻發生的事按時間歸類，傳統的神經網絡目前還無法做到，因為這需要使用之前電影中出現的事件推理出後面發生的事情，而循環神經網絡可以解決這一問題。循環神經網絡的結果可以在網絡中循環，並能夠維持信息。

循環神經網絡有迴路

循環神經網絡的單元如圖所示，它的輸入值是 x，U是輸入層到隱含層的權重，s是隱含層的輸出值，V是隱含層到輸出層的權重，W 是上個時刻隱含層的輸出值作為這個時刻輸入的權重，o是輸出。也就是說信息通過迴路從網絡的目前狀態傳遞到下一個狀態時，同一個神經網絡單元需要不停地處理不同的輸入值和上一時刻自己產生的隱含層的輸出值，看上去循環神經單元就像是有迴路的一樣。

神經網絡與深度學習概述第八章循環神經網絡RNN概述

循環神經單元展開

循環神經網絡的展開

上圖的右邊即為循環神經網絡展開後的結果，這個鏈式結構揭示了與循環神經網絡密切相關的序列。

RNN的正向傳遞

設隱含層和輸出層的激活函數都是 δ(x)。

設模型的輸入為 x_t，則隱含層的輸入為：

h_t = U*x_t + W*s_t-1

隱含層的輸出為：

s_t = δ( h_t )

輸出層的輸入為：

net_t = V*s_t

輸出層的輸出為：

o_t = δ( net_t )

據此可以繼續往前一時刻推導，由此可以看出，循環神經網絡具有記憶性，t 時刻的隱含層的輸入信息不僅包括該時刻的輸入，還包含了前面任意時刻的輸入信息。

RNN的反向傳播

反向傳播過程和 BP 算法類似，採用鏈式求導法則更新網絡的權重，在此不做具體推導了，感興趣的讀者可以到網上查一查相關的資料。

RNN的梯度爆炸和梯度消失問題

一般的 RNN 不能很好的處理較長時間的序列信息，一個主要的原因是，RNN在訓練中很容易發生梯度爆炸和梯度消失問題，導致訓練時梯度不能在較長序列中一直傳遞下去，從而使得 RNN 無法捕捉到長距離的影響。

舉個例子，考慮一個語言模型試圖預測基於當前的下一個詞。如果我們試圖預測“明天會下____”這句話的最後一個字，那麼我們幾乎不需要任何進一步的語境就可以判斷下一個字是雨或雪。在這種情況下，如果相關的信息(這裡指的是“明天會下”)和我們需要填詞的位置之間的差距較小，那麼RNN就能學會利用過去的信息。

但有時，我們需要更多的上下文。試著預測“我在中國西南地區長大……(省略200個字)，我能講一口流利的____。”的最後一個詞。最近的信息表明，下一個字可能是語言的名字，但如果我們想要縮小語言名字的範圍，則需要這個詞更多的上下文。我們發現，有時相關上下文信息和我們需要得到的這個詞的位置相距很遠。一般的 RNN 則無法解決這個問題。

梯度消失

對於求偏導的結果，也就是梯度，距離當前時刻越遠則會乘越多激活函數的導數，當激活函數是指數型時，對於本來就很小接近0的梯度再經過指數就更加小，基本忽略不計了，於是便接收不到遠距離的影響，因此 RNN 處理不了較長序列。

梯度爆炸

對於求偏導的結果，也就是梯度，當梯度的值太大時，經過指數放大，則會產生梯度爆炸。

一般，梯度爆炸比較容易處理。因為梯度爆炸的時候，程序會出現NaN錯誤，通過設置一個梯度閾值，當梯度超過這個閾值的時候可以直接截取來解決梯度爆炸的問題。

對於梯度消失處理則稍微困難一些，目前主要有三種方法應對梯度消失問題：

合理的初始化權重值。仔細挑選參數，使每個神經元儘可能不要取極大或極小值，以避開梯度消失的區域，但實踐中往往比較困難
使用 ReLU 函數代替 Sigmoid 函數和 Tanh 函數作為激活函數
使用其他結構的循環神經網絡，比如長短時記憶網絡（LSTM，Long Short-Term Memory）和Gated Recurrent Unit（GRU）等，後續對 LSTM 網絡將會有詳細介紹

ReLU 激活函數

ReLU(Rectified Linear Units)激活函數。

當 x<0 時，y = 0

當 x >0 時，y = x

神經網絡與深度學習概述第八章循環神經網絡RNN概述

ReLU 激活函數

相比 Sigmoid 和 Tanh 函數，ReLU 激活函數的優點在於：

梯度不飽和。梯度計算公式為：1{x>0}。因此在反向傳播過程中，減輕了梯度消失的問題，神經網絡前幾層的參數也可以很快的更新
計算速度快。正向傳播過程中，Sigmoid 和 Tanh函數計算激活值時需要計算指數，而 ReLU 函數僅需要設置閾值，如果x<0,f(x)=0，如果x>0,f(x)=x，加快了正向傳播的計算速度
因此，ReLU激活函數可以極大地加快收斂速度，相比 Tanh 函數，收斂速度明顯加快，甚至可以加快好幾倍

相關推薦

'工程上的圖像檢索技術基礎概述'

"從圖像特徵說起以人臉識別場景為例，我們通過機器學習算法可以對人臉圖片實現降維，即某張圖片的尺寸是64*64的RGB圖像，那麼這個圖像的維度就是64*64*3 = 12288維。直接將這個維度用於圖像識別顯然是不合適的，這是圖像的原始維度，不是圖像的特徵。提取圖像特徵的過程...

算法 Spark 數據庫技術機器學習 2019-09-18

'神經網絡簡介'

"簡單解釋神經網絡是如何工作的，以及如何在Python中從頭實現一個。這句話可能會讓你大吃一驚:神經網絡並沒有那麼複雜!“神經網絡”這個詞經常被用作流行語，但實際上它們往往比人們想象的要簡單得多。這篇文章是完全針對初學者準備的，我們假設你沒有任何機器學習的知識。我們將瞭解神...

人工智能 Python 機器學習數學人生第一份工作 2019-09-17

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'「專利解密」騰訊遊戲是如何利用深度學習技術的'

"集微網消息，2019世界人工智能大會在上海開幕。會上，騰訊董事會主席兼CEO馬化騰在開幕式演講上重點講了關於AI的內容。他表示，一年來，在上海地區，騰訊在人工智能、雲計算等領域都有大幅投入。去年此時，騰訊華東總部在上海成立，目前已擁有超5000人團隊。騰訊電競的6大職業賽...

深度學習騰訊遊戲騰訊 2019世界人工智能大會技術上海人工智能王者聯盟雲計算通信算法馬化騰機器人 2019-09-12

'深度學習的完整硬件指南'

"原標題 | A Full Hardware Guide to Deep Learning作者 | Tim Dettmers 譯者 | linlh、呀啦呼（Tufts University）、Ryan222（重慶郵電大學）深度學習是非常消耗計算資源的，毫無疑問這就需要多核高...

深度學習 GPU 中央處理器硬件技術跳槽那些事兒德州儀器 Linux 心理學 Kaggle 市場營銷重慶 2019-09-12

'研究人員用深度神經網絡算法分析《根特祭壇畫》'

"倫敦大學學院和杜克大學的研究人員最近發表了一項研究成果，生動地揭示了人工智能在藝術史研究上的潛在能力。著名的15世紀組畫《根特祭壇畫》由胡伯特·凡·艾克和揚·凡·艾克兄弟倆先後持續創作，很難分辨哪些部分出自胡伯特、哪些部分出自揚。研究人員結合深度神經網絡算法和x射線圖像技...

人工智能深度學習算法倫敦大學藝術技術歷史金融杜克大學設計 2019-09-12

'「雜談」什麼是我心目中深度學習算法工程師的標準'

"有三AI平臺只專心做原創輸出很少扯淡也不蹭熱點，不過最近詢問的朋友多了，不得不統一寫篇文章來回答一下這個大家都很關心的問題，當然，這僅僅是個人觀點。作者&編輯 | 言有三目前利用深度學習這個工具可以做很多事情，各大領域(圖像，語音，NLP等)，各大行業(娛樂，金融...

人工智能算法工程師人生第一份工作 Python 招聘文章技術設計金融不完美媽媽 C語言 GitHub 數學麻將大眾汽車 Linux 2019-09-11

'基於深度學習的人臉檢測和識別方法介紹'

"關注微信公眾號：人工智能前沿講習，重磅乾貨，第一時間送達人臉識別分人臉驗證（face verification）和人臉確認（face identification）；前者是指兩個人是不是同一個人，即1-to-1 mapping，而後者是確定一個人是一群人中的某個，即1-t...

深度學習人臉識別算法設計歐幾里得人工智能照相機大和族 Branch CNN 2019-09-11

'訓練一個能像人一樣說話的神經網絡模型，具體需要哪些步驟？'

"AI 開發者按，本文的作者是數據科學家 Maël Fabien。在過去的幾個月裡，他在個人博客上寫了 100 多篇文章。這個內容量相當可觀。他突然想到一個主意：訓練一個能像他一樣說話的語言生成模型。為此，他寫了一篇文章分享了生成一個像人一樣說話的神經網絡模型的過程和相關代...

人工智能 Markdown Kaggle 算法文章操作系統 2019-09-09

'液壓泵和液壓馬達概述，36頁內容深入進行介紹，值得保存'

"液壓泵和液壓馬達概述液壓泵是液壓系統的動力元件，它將原動機（電動機、內燃機等）輸入的機械能（轉矩T和角速度ω）轉換為液壓能（壓力p、流量q）輸出，為液壓系統提供壓力油源。液壓泵的特點：結構上具有能實現週期性變化的密閉工作容腔；必須具有配液裝置，當密閉工作容腔容積由小變大時...

人生第一份工作設計 PowerPoint 歷史文章 2019-09-08

'深度 | 為什麼你的孩子能專注打遊戲，卻沒法專注學習？'

"文 | 劉純婷文章轉載自曾奇峰心理工作室(ID:zqfxlgzs)1很多家長都為孩子的學習問題操碎了心，其中最容易被詬病的是注意力問題。一位媽媽形容自己孩子晚上寫作業，寫兩個題，愣十分鐘，再憋幾個字，上廁所蹲半小時，再背幾個單詞，出來吃水果花二十分鐘。寫作業異常煎熬。很多...

不完美媽媽服裝敏感期幼兒園雞蛋文章水果 2019-09-07

'2019深度學習語音合成指南'

"雷鋒網AI科技評論編者按：人工合成人類語音被稱為語音合成。這種基於機器學習的技術適用於文本轉換語音（text-to-speech）、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務。在這篇文章中，我們將研究基於深度學習而進行的研究或模型框架。在我們正...

語音合成深度學習人工智能跳槽那些事兒技術數據庫 Google 文章音樂機器學習算法 2019-09-05

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'深度學習：徹底解決你的知識焦慮（筆記）'

"過目不忘的祕密“記性好”所需要的能力是：將原本沒有任何含義的信息賦予一定的意義、仔細觀察並找出重要信息、將眼前的信息與頭腦中已有的信息庫相對照等能力。無法利用圖式的學習如果頭腦中沒有圖式，即使理解了字面意思，也無法理解其內在含義。已經掌握的舊知識，對於學習新知識有著重要的...

深度學習讀書啤酒 2019-09-02

'雙層全光學神經網絡：速度快，功耗低'

"導讀據美國光學學會官網近日報道，香港科技大學的研究人員演示了一種全新的多層全光學人工神經網絡，向著實用的大規模光學神經網絡邁出了關鍵一步。背景大腦是人體最重要的器官之一，它支撐著人的視覺、聽覺、平衡、味覺、嗅覺、記憶、情感、學習等。大腦的構造十分複雜，它由大約1千億個神經...

人工智能技術電腦硬件深度學習並行計算設計香港科技大學大學牛津大學語音識別技術香港無人駕駛 2019-09-01

'“深度學習”（2）神經網絡的神奇操作'

"今天我們來做一個神經網絡學習的實戰。這是一套可以說是神奇的操作 —— 因為它簡直是出乎意料地簡單。你會感慨，為什麼這麼複雜的問題，居然能用這麼一個簡單粗暴的方法就解決了。在我看來這絕對是一個工程上的幸運發現。很多發明創造都是工程師偶然鼓搗出來的。噴氣式發動機到底是什麼原理...

人工智能深度學習數學電腦數據庫 Python 2019-08-31

推薦中...

神經網絡與深度學習概述 第八章 循環神經網絡RNN概述

循環神經網絡的概念

循環神經網絡有迴路

循環神經網絡的展開

RNN的梯度爆炸和梯度消失問題

ReLU 激活函數

相關推薦

神經網絡與深度學習概述第八章循環神經網絡RNN概述