深度學習之：淺說序列學習

機器學習深度學習 Linux 莎士比亞中國雲計算 2017-05-04

系列的第一篇概覽了一下深度學習中的基本概念。第二篇介紹了深度學習的歷史背景，以及如何高效地訓練神經網絡。而這一篇當中，我們將一起認識自然語言處理領域的核心：序列學習。

圖1：長短期記憶(LSTM)單元。

LSTM有四個輸入權重和四個循環權重。Peepholes是記憶細胞和門之間的額外連接，但他們對性能提升幫助不到，所以常被忽略。

序列學習

生活中的所有事物都是與時間相關的，也就形成了一個序列。為了對序列數據(文本、演講、視頻等)我們可以使用神經網絡並導入整個序列，但是這樣我們的數據輸入尺寸是固定的，侷限性就很明顯。如果重要的時序特徵事件恰好落在輸入窗以外，就會產生更大的問題。所以我們需要的是：

能對任意長度序列做逐個元素讀取的神經網絡(比如視頻就是一系列的圖片;我們每次給神經網絡一張圖);

有記憶的神經網絡，能夠記得若干個時間步以前的事件、這些問題和需求已經催生出多中不同的循環神經網絡。

循環神經網絡

若我們想讓一個常規的神經網絡解決兩個數相加的問題，那我們只需要輸入兩個數字，再訓練兩數之和的預測即可。如果現在有3個數要相加，那麼我們可以：

拓展網絡架構，添加輸入和權重，再重新訓練;

把第一次的輸出(即兩數之和)和第三個數作為輸入，再返回給網絡。

方案(2)顯然更好，因為我們希望避免重新訓練整個網絡(網絡已經“知道”如何將兩個數相加)。如果我們的任務變成：先對兩數做加法，再減去兩個不同的數，那這個方案又不好使了。即使我們使用額外的權重，也不能保證正確的輸出。相反，我們可以嘗試“修改程序”，把網絡由“加法”變成“減法”。通過隱藏層的加權可以實現這一步(見圖2)，如此便讓網絡的內核隨著每個新的輸入而變化。網絡將學習著在相加兩個數之後，把程序從“加法”變成“減法”，然後就解決了問題。

圖2：常規神經網絡與循環神經網絡的架構比較。

循環神經網絡每次讀取一個輸入，而常規神經網絡一次性全部讀入。

我們甚至可以泛化這一方法，傳遞給網絡兩個數字，再傳入一個“特殊”的數字——代表著數學運算“加法”，“減法”或“乘法”。實踐當中這樣或許不盡完美，但也能得到大體正確的結果了。不過這裡的主要問題倒不在於得到正確結果，而是我們可以訓練循環神經網絡，使之能夠學習任意輸入序列所產生的特殊輸出，這就威力大了。

例如，我們可以教網絡學會詞語的序列。Soumith Chintala和Wojciech Zaremba寫了一篇優秀的博客講述用RNN做自然語言處理。RNN也可以用於生成序列。Andrej Karpathy寫了這篇[有趣而生動的博客]，展示了字詞級別的RNN，可以模仿各種文風，從莎士比亞，到Linux源碼，再到給小孩兒起名。

長短期記憶(Long Short Term Memory, LSTM)

長短期記憶單元使用自連接的線性單元，權重為常數1.0。這使得流入自循環的值(前向傳播)或梯度(反向傳播)可以保持不變(乘以1.0的輸入或誤差還是原來的值;前一時間步的輸出或誤差也和下一時間步的輸出相同)，因而所有的值和梯度都可以在需要的時候準確回調。這個自循環的單元，記憶細胞，提供了一種可以儲存信息的記憶功能，對之前的若干個時間步當中有效。這對很多任務都極其有效，比如文本數據，LSTM可以存儲前一段的信息，並對當前段落的序列應用這些信息。

另外，深度網絡中一個很普遍的問題叫作“梯度消失”問題，也即，梯度隨著層數增多而越來越小。有了LSTM中的記憶細胞，就有了連續的梯度流(誤差保持原值)，從而消除了梯度消失問題，能夠學習幾百個時間步那麼長的序列。

然而有時我們會想要拋掉舊有信息，替換以更新、更相關的信息。同時我們又不想釋放無效信息干擾其餘部分的網絡。為了解決這個問題，LSTM單元擁有一個遺忘門，在不對網絡釋放信息的情況下刪除自循環單元內的信息(見圖1)。遺忘門將記憶細胞裡的值乘以0~1之間的數字，其中0表示遺忘，1表示保持原樣。具體的數值宥當前輸入和上一時間步的LSTM單元輸出決定。

在其他時間，記憶細胞還需要保持多個時間步內不變，為此LSTM增加了另一道門，輸入門(或寫入門)。當輸入門關閉時，新信息就不會流入，原有信息得到保護。

另一個門將記憶細胞的輸出值乘以0(抹除輸出)~1之間的數，當多個記憶相互競爭時這很有用：一個記憶細胞可能說：“我的記憶非常重要!所以我現在就要釋放”，但是網絡卻可能說：“你的記憶是很重要，不過現在又其他更重要的記憶細胞，所以我給你的輸出門賦予一個微小的數值，給其他門大數值，這樣他們會勝出”。

LSTM單元的連接方式初看可能有些複雜，你需要一些時間去理解。但是當你分別考察各個部件的時候，會發現其結構其實跟普通的循環神經網絡沒啥兩樣——輸入和循環權重流向所有的門，連接到自循環記憶細胞。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'「NLP」如何系統性的學習NLP，有三AI-NLP知識星球等你來'

"文 | 小Dream哥編輯 | 言有三星球開設的必要性時間過的很快，轉眼在有三AI開設NLP專欄已經2個月了。是時候總結下了，我們的NLP專欄按計劃更新了NLP中用的常用的機器學習模型，深度學習特徵抽取器從RNN講到了Transformer，馬上就要更新BERT。基本上聊...

人工智能機器人技術電腦工程師機器學習讀書 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'阿里巴巴Python工程師推出了的一份Python學習清單，絕對經典'

Python MySQL 工程師數據庫 Linux 程序員讀書面向對象程序編程 CSS Django HTML JavaScript MongoDB 阿里巴巴集團人工智能 jQuery 編程語言路由器算法硬件物聯網 2019-09-14

'學習雲計算需要具備哪些知識結構'

"首先，雲計算需要一個龐大的技術體系作為支撐，隨著雲計算逐漸從IaaS向PaaS和SaaS轉換，雲計算的技術生態也在不斷髮展和完善，雲計算自身的功能邊界也在不斷得到拓展，相信在產業互聯網階段，雲計算將進一步深入到產業領域，打造出更多基於行業的“全棧雲”。從技術體系結構上來看...

雲計算 Linux 數據庫操作系統編程語言技術物聯網 IaaS SaaS Docker Java 人工智能 2019-09-13

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'都應該瞭解的Python函數式編程+2019最新python學習資料分享'

"文末小編整理了2019最新流出的python400集學習資料希望對大家有幫助謝謝“ 函數式編程（Functional Programming）或者函數程序設計，是一種編程範型。”它將計算機運算視為數學上的函數運算，並且避免使用程序狀態以及變量對象。以上只是簡單的函數式編程...

Python 泛函編程編程範型 Linux C語言機器學習程序設計 2019-09-13

'如何啟動學習的內心“渴望”'

"相信好多人看過由瑞士兒童文學作家約翰娜·斯比麗的小說《海蒂》改編的電影《海蒂和爺爺》。父母雙亡的海蒂被姨媽賣給了富家大小姐克拉拉做玩伴，海蒂陪克拉拉一起讀書，家庭教師教了海蒂好多遍，但海蒂就是聽不進去。克拉拉的奶奶知道後略有所思，然後克拉拉的奶奶拿著一本書，來到海蒂房間，...

不完美媽媽讀書海蒂文化小說莎士比亞歷史兒童文學王蒙文章李白 2019-09-12

'整理10只科技龍頭名單，值得學習收藏 9.10'

"市場環境及趨勢週末利好消息出來，降准算是預期內的利好，納入標普算是額外的，兩市高開的幅度算是適中，而且金融股沒有一致性的強，但是盤面的轉折仍然是金融股高開低走後拉起來，題材股才開始走強的。盤面上最強的仍然是科技股，原有的軟件、芯片半導體，切換到了5G、邊緣計算，但是午盤後...

我的第一部5G手機同花順金融京東方滬電股份收藏中興通訊技術 Linux 軟件知識產權能源龍虎榜操作系統物聯網信息安全中標麒麟華為公司諾基亞東方財富人生第一份工作 2019-09-12

'「專利解密」騰訊遊戲是如何利用深度學習技術的'

"集微網消息，2019世界人工智能大會在上海開幕。會上，騰訊董事會主席兼CEO馬化騰在開幕式演講上重點講了關於AI的內容。他表示，一年來，在上海地區，騰訊在人工智能、雲計算等領域都有大幅投入。去年此時，騰訊華東總部在上海成立，目前已擁有超5000人團隊。騰訊電競的6大職業賽...

深度學習騰訊遊戲騰訊 2019世界人工智能大會技術上海人工智能王者聯盟雲計算通信算法馬化騰機器人 2019-09-12

'Deep CARs：使用Pytorch學習框架實現遷移學習'

"全文共13449字，預計學習時長26分鐘或更長圖片來源：https://www.pexels.com/photo/vehicles-parked-inside-elevated-parking-lot-63294/如何讓電腦識別不同的汽車品牌？想用手機拍任何一輛車就能知道...

GPU 人工智能電腦 Kaggle Google 中央處理器深度學習數據庫 JSON 硬件盜夢空間動物 2019-09-12

'學習人工智能 100 天后，我得出 5 個結論'

"2019 年 1 月底，我突然意識到，自己對人工智能瞭解非常有限。目前，人工智能對我們的影響越來越大。它保護我們的郵箱免受垃圾郵件的干擾，提供 Alexa 天氣信息更新，為亞馬遜消費者推薦更精準的商品或者為 Netflix 用戶提供觀影建議。每次當我們打開 Twitter...

人工智能機器學習數學深度學習算法吳恩達播客文化凱文·凱利 Google 設計 Facebook Coursera Twitter 達特茅斯學院 Alexa Internet 程序員技術機器人讓夢發生哈兒微軟科幻小說 Netflix 2019-09-12

'深度學習的完整硬件指南'

"原標題 | A Full Hardware Guide to Deep Learning作者 | Tim Dettmers 譯者 | linlh、呀啦呼（Tufts University）、Ryan222（重慶郵電大學）深度學習是非常消耗計算資源的，毫無疑問這就需要多核高...

深度學習 GPU 中央處理器硬件技術跳槽那些事兒德州儀器 Linux 心理學 Kaggle 市場營銷重慶 2019-09-12

推薦中...