Pytorch深度學習實用教程：手把手教你從DQN到Rainbow | 在線代碼

Rainbow 深度學習 GitHub 算法人工智能雅達利量子位 2019-07-15

魚羊發自凹非寺
量子位報道 | 公眾號 QbitAI

炎炎夏日，燥熱難耐，不如學學深度學習冷靜一下？

這裡有一份乾貨教程，手把手帶你入門深度強化學習（Deep Reiforcement Learning），背景理論、代碼實現全都有，在線領取無需安裝喲！

廢話不多說，趕緊領取教程看看裡頭具體都有哪些寶藏知識吧～

步步深入RL

這份Pytorch強化學習教程一共有八章，從DQN（Deep Q-Learning）開始，步步深入，最後向你展示Rainbow到底是什麼。

不僅有Jupyter Notebook，作者還在Colab上配置好了代碼，無需安裝，你就能直觀地感受到算法的效果，甚至還可以直接在手機上進行學習！

Pytorch深度學習實用教程：手把手教你從DQN到Rainbow | 在線代碼

1. DQN

DeepRL入門第一步，當先瞭解DQN（Deep Q-Learning）。這是DeepMind提出的一種算法，2015年登上Nuture。它首次將深度神經網絡與強化學習進行了結合，實現了從感知到動作的端到端學習，在多種雅達利遊戲當中達到了超人水平。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/01.dqn.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/01.dqn.ipynb#scrollTo=nEcnUNg8Sn3I

△Colab在線訓練

2. Double DQN

Double DQN（DDQN）是DQN的一種改進。在DDQN之前，基本所有的目標Q值都是通過貪婪法得到的，而這往往會造成過度估計（overestimations）的問題。DDQN將目標Q值的最大動作分解成動作選擇和動作評估兩步，有效解決了這個問題。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/02.double_q.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/02.double_q.ipynb

3.Prioritized Experience Replay

該算法的核心在於抽取經驗池中過往經驗樣本時，引入了優先級的概念。也就是說，優先級的大小會影響樣本被採樣的概率。

採用這種方法，重要經驗被回放的概率會增大，算法會更容易收斂，學習效率也就相應提高了。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/03.per.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/03.per.ipynb

4. Dueling Networks

Dueling DQN是通過優化神經網絡的結構來優化算法的。Dueling Networks用兩個子網絡來分別估計狀態值和每個動作的優勢。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/04.dueling.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/04.dueling.ipynb

5. Noisy Network

NoisyNet通過學習網絡權重的擾動來推動探索。其關鍵在於，對權重向量的單一更改可以在多個時間步驟中引發一致的，可能非常複雜的狀態相關的策略更改。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/05.noisy_net.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/05.noisy_net.ipynb

6. Categorical DQN（C51）

Categorical DQN是一種採用分佈視角來設計的算法，它建模的是狀態-動作價值Q的分佈，這樣學習的結果會更加準確。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/06.categorical_dqn.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/06.categorical_dqn.ipynb

7. N-step Learning

DQN使用當前的即時獎勵和下一時刻的價值估計作為目標價值，學習速度可能相對較慢。而使用前視多步驟目標實際上也是可行的。N-step Learning通過調整多步驟目標n來加快學習速度。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/07.n_step_learning.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/07.n_step_learning.ipynb

8. Rainbow

有了前七章的鋪墊，現在你就能瞭解到Rainbow的真意了。

Rainbow是結合了DQN多種擴展算法的一種新算法，在數據效率和最終性能方面，該方法表現出了驚人的效果。

然而，整合並非一件簡單的事情，針對這一點，教程也做出了討論。

Pytorch Jupyter Notebook：
https://nbviewer.jupyter.org/github/Curt-Park/rainbow-is-all-you-need/blob/master/08.rainbow.ipynb
Colab：
https://colab.research.google.com/github/Curt-Park/rainbow-is-all-you-need/blob/master/08.rainbow.ipynb#scrollTo=ougv5VEKX1d1

系統學習是個非常不錯的選擇，當然作者也說了，以上知識點，你也可以選擇想學哪裡點哪裡。

學習小技巧

如果你想在本地運行這些代碼，那麼這裡有些小技巧請拿好。

首先是運行環境：

$ conda create -n rainbow_is_all_you_need python=3.6.1
$ conda activate rainbow_is_all_you_need

進入安裝環節，首先，克隆存儲庫：

其次，安裝執行代碼所需的包，這很簡單：

make dep

那麼，快開始學習吧～

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

'深度學習框架Keras與Pytorch對比'

"對於許多科學家、工程師和開發人員來說，TensorFlow是他們的第一個深度學習框架。TensorFlow 1.0於2017年2月發佈，可以說，它對用戶不太友好。在過去的幾年裡，兩個主要的深度學習庫Keras和Pytorch獲得了大量關注，主要是因為它們的使用比較簡單。本...

人工智能程序員 Python Facebook 工程師 2019-09-05

'深度學習框架Keras與Pytorch對比'

人工智能程序員 Python Facebook 工程師 2019-09-01

'深度學習-機器學習從入門到深入全套資源分享'

" 深度學習、機器學習從入門到深入，全套資源分享。涉及深度學習、機器學習數學、算法基礎理論、實戰和工程開發相關最佳資源。深度學習常用模型相關教程，深度學習模型優化、調參相關技巧；深度學習常用的框架，公開數據集、國際頂級會議等相關資源。本文內容整理自網絡，原文地址：http...

深度學習人工智能 Kaggle 吳恩達算法工程師數學技術自然語言處理大數據跳槽那些事兒電腦 Google Coursera 麻省理工學院 2019-08-24

'教你使用概念激活向量，從新角度理解深度學習模型'

"全文共2617字，預計學習時長5分鐘可解釋性仍是現代深度學習應用中最嚴峻的挑戰之一。隨著計算模型和深度學習研究領域不斷進展，如今可建立包含數千隱藏神經層和上千萬神經元的複雜模型。儘管在深度神經網絡模型上取得巨大進步似乎還算簡單，但理解這些模型的創建和推理過程仍是一大難題。...

深度學習 Google 技術人工智能機器學習 2019-08-24

'「機器學習」神經網絡淺講：從神經元到深度學習（一）'

"作者：計算機的潛意識鏈接：https://www.cnblogs.com/subconscious/p/5058741.html神經網絡是一門重要的機器學習技術。它是目前最為火熱的研究方向--深度學習的基礎。學習神經網絡不僅可以讓你掌握一門強大的機器學習方法，同時也可以更...

人工智能技術算法設計吳恩達電腦生物 2019-08-18

'羅濱：深度學習，從課時教學目標到單元學習目標'

"還記得，大學剛畢業如願成為一名中學老師時，我非常興奮。認真備課、上好每一節課是我的心願。那時的我，有兩個備課本，一本是初備，自己獨立寫的教案；另一本是聽了師傅的課和被指導之後反覆修改或重新寫的教案。教案的主要內容包括六個部分：教學目標、教學重點、教學難點、教學儀器與藥品、...

人工智能大學化學幼兒園人生第一份工作設計 2019-08-16

'圖像配準：從SIFT到深度學習'

"目錄圖像配準：從SIFT到深度學習什麼是圖像配準傳統的基於特徵的方法關鍵點檢測和特徵描述特徵匹配圖像變換深度學習方法特徵提取Homography學習監督學習無監督學習其他方法強化學習複雜的轉換圖像配準（Image Registration）是計算機視覺中的基本步驟。在本...

深度學習 OpenCV 算法 FLOW 2019-08-05

'圖像配準：從SIFT到深度學習'

深度學習 OpenCV 算法 FLOW 2019-08-04

聽說你想了解人工智能？這篇文章教你從零基礎成為深度學習高手

2016年3月份，AlphaGo以4：1戰勝韓國圍棋手李世石，一舉震驚了世界。人工智能一下就引爆了整個世界。有種趨勢就是，不談人工智能，就落伍了。以前資本...

人工智能電腦算法文章韓國語音識別技術圍棋數據庫李世石機器人數據挖掘銀行 2019-07-08

「決戰紫禁之巔」之深度學習框架篇：Keras VS PyTorch

選自towardsdatascience作者：George Seif機器之心編譯參與：杜偉、一鳴Keras和PyTorch之爭由來已久。一年前，機器之心就...

人工智能程序員 Python 決戰紫禁之巔 Facebook 工程師 2019-07-01

理解和創建GANs|使用PyTorch來做深度學習

作者：Venkatesh Tata編譯：ronghuaiyang生成對抗網絡的一篇實踐文章，使用PyTorch，用很簡單的代碼搭建了一個GANs，非常通俗...

人工智能 Python 大學 2019-06-20

Facebook更新PyTorch 1.1，深度學習CPU搶GPU飯碗

在一年一度的開發者大會F8上，Facebook放出PyTorch的1.1版本，直指TensorFlow“腹地”。不僅宣佈支持TensorFlow的可視化工...

人工智能中央處理器 Facebook GPU 技術電腦算法機器人可視化技術無人駕駛 Python Google Alexa Internet 語音識別技術日本科幻小說 Siri 農民科幻電影 2019-05-24

Facebook更新PyTorch 1.1,深度學習CPU搶GPU飯碗？

在一年一度的開發者大會F8上，Facebook放出PyTorch的1.1版本，直指TensorFlow“腹地”。不僅宣佈支持TensorFlow的可視化工...

人工智能中央處理器 Facebook GPU 技術電腦算法吳恩達無人駕駛可視化技術機器人 Python Twitter Google Alexa Internet 科幻小說科幻電影 Siri 語音識別技術日本大數據農民 2019-05-18

2019目前為止深度學習的最佳研究，有論文有代碼！

作者：ODSC編譯：ronghuaiyang我們即將完成2019年第一季度的工作，而深度學習技術的研究正以非常快的速度向前推進。我經常會查看一下人工智能研...

人工智能 GitHub 設計 Python 數據結構 Google GPU CNN 2019-05-15

一篇文章讀懂人工智能、機器學習、深度學習及PyTorch？

PyTorch是Facebook在機器學習和科學計算工具Torch的基礎上，針對Python語言發佈的一個全新的機器學習工具包，一經推出便受到了業界的廣泛...

人工智能深度學習 ?? 文章吳恩達算法技術阿蘭·圖靈自然語言處理 Python Twitter Facebook 語音識別技術推薦技術 Google 音樂 2019-04-20

理解神經網絡：從神經元到RNN、CNN、深度學習

本文為 AI 研習社編譯的技術博客，原標題：Understanding Neural Networks. From neuron to RNN, CNN...

人工智能深度學習 CNN 算法數學技術 2019-04-11

代碼詳解：構建一個簡單的Keras+深度學習REST API

在本教程中，我們將介紹一個簡單的方法來獲取Keras模型並將其部署為REST API。本文所介紹的示例將作為你構建自己的深度學習API的模板/起點——你可...

Flask 深度學習 Python JSON 2019-04-11

100行Python代碼理解深度學習關鍵概念從頭構建惡性腫瘤檢測網絡

摘要： 100行Python代碼理解深度學習關鍵概念！在構建乳腺癌預測神經網絡過程中，我們主要分為3大部分：1.用Python從零開始創建一個神經網絡，並...

人工智能 Python 深度學習算法腫瘤癌症乳腺癌宇宙讀書數學吳恩達威斯康星州 2019-04-05

深度強化學習從入門到大師：以Doom為例一文帶你讀懂深度Q學習（第三部分-上）

本文為 AI 研習社編譯的技術博客，原標題：An introduction to Deep Q-Learning: let’s play Doom作者 ...

Doom 深度學習人工智能算法技術讀書文章數學 Udacity 一起皮一下才開心狗 2019-04-05

手把手教你運用深度學習構建視頻人臉識別模型(Python實現）

作者：Faizan Shaikh 翻譯：季洋校對：王雨桐本文約2700字，建議閱讀10+分鐘。本文將展示如何使用開源工具完成一個人臉識別的算法。引言“計...

Python 技術人工智能算法軟件硬件 Facebook Ubuntu 筆記本電腦 GPU 機器學習 2019-04-04

推薦中...