英特爾通過預測變量實現策略性強化學習,奪冠 Doom 遊戲競賽 | ICLR 2017

Doom 英特爾 人工智能 文章 雷鋒網 2017-04-25

雷鋒網AI科技評論按:ICLR 2017 將於4月24-26日在法國土倫舉行,屆時雷鋒網AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學習會議舉辦之前,雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。

英特爾通過預測變量實現策略性強化學習,奪冠 Doom 遊戲競賽 | ICLR 2017

儘管目前強化學習(Reinforcenment learning)已經取得了重大的進展,但是依然存在兩個關鍵性挑戰。

  • 一個是在複雜和動態的三維環境下從原生的感覺輸入中實現感覺運動控制(Sensorimotor control),以實現直接從經驗中進行學習;

  • 另一個則是獲得可以靈活部署以實現大量動態目標任務的通用技能。

因此本文的作者提出了一種旨在輔助進步的感覺運動控制方法,以克服強化學習的兩大挑戰。

以下為雷鋒網AI科技評論據論文內容進行的部分編譯。

論文摘要

據雷鋒網瞭解,來自英特爾實驗室(Intel Labs)的兩名研究員Alexey Dosovitskiy和Vladlen Koltum提出了一種在沉浸式環境中實現感覺運動控制(Sensorimotor control)的方法。據悉,該方法有效地綜合利用了高維度的感官流(high-dimensional sensory stream)和較低維度的測量流(lower-dimensional measurement stream)。

英特爾通過預測變量實現策略性強化學習,奪冠 Doom 遊戲競賽 | ICLR 2017
  • 圖1:網絡結構。s表示圖像數據,m表示測量,g表示目標。s,m,g首先通過三個輸入模塊分別進行處理。然後這些輸入模塊的輸出結果將被連接成一個聯合表示j。之後聯合表示j被送入了兩個並行的計算流進行單獨處理,這兩個計算流分別用於預測測量期望E(j)和歸一化動作條件差異。最後兩個計算流的輸出將被組合到一起以獲得針對每個動作的最終預測。

這些流的時間結構提供了豐富的監控信號,這使得可以通過與環境交互的方式訓練運動控制模型。該模型通過監督學習技術進行訓練,但是沒有用到外部監督。它從來自於複雜三維環境的原始感官輸入中學習動作。該方案使得模型在訓練過程中不用設定固定的學習目標,並且在測試的時候可以探索動態變化的目標。

據悉,研究員們在經典的第一視角遊戲——Doom所提供的的三維模擬環境中進行了大量的實驗。而實驗結果表明,英特爾實驗室研究員所提出的方法優於先前提出的其它複雜方法,這一點在具有挑戰性的任務中體現得更加明顯。實驗結果還表明訓練好的模型在環境與目標之間具有很好的泛化能力。除此之外,通過該方法訓練出來的模型還贏得了Full Deathmatch track of the Visual Doom AI Competition的勝利,該競賽是在一個對於模型而言完全陌生的環境下舉辦的。

論文結果展示

英特爾通過預測變量實現策略性強化學習,奪冠 Doom 遊戲競賽 | ICLR 2017
  • 圖2:展示了來自於四個場景的樣例。D1展示了在一個正方形房間裡收集醫療包(“Basic”)。D2展示了在迷宮中收集醫療包並且還要避開毒藥(“Navigation”)。D3展示了在迷宮中收集醫療包和彈藥並同時攻擊敵人(“Battle”)。D4展示了在一個更加複雜的迷宮中收集醫療包和彈藥並同時攻擊敵人(“Battle 2”)。

英特爾通過預測變量實現策略性強化學習,奪冠 Doom 遊戲競賽 | ICLR 2017
  • 圖3:不同方法在訓練中的表現。DQN,A3C和DFP在基礎的場景中都取得了類似的表現結果。但是DFP在其它三個場景中取得的表現結果都超過了另外三個方法。並且在最複雜的兩個場景下(D3與D4),DFP的表現結果遠遠優於另外三個方法。

ICLR評論

ICLR委員會最終決定

評價:這篇論文詳細介紹了作者在VizDoom競賽中獲勝的方法。這是一種預測輔助變量的策略性強化學習方法,並且使用了內在動機。同時該方法也是通用價值函數的一種特殊情況。該方法事實上是其它不同策略的一個集合,但是它產生了令人印象深刻的實驗結果,並且論文也寫的很清晰。

決定:接受(Oral)

令人信服的經驗驅動成果

打分:7分:好論文,接受

評價:深度強化學習(在強化學習算法中使用深度神經網絡進行函數近似)在解決大規模狀態空間下的強化學習問題中已經取得了許多的成功。而這種經驗驅動的工作正是建立在這些方法的基礎之上進行的。這篇論文介紹了一種新穎的算法,該算法在原生感覺數據(Raw sensory data)的全新3D環境中表現得更好,並且能在目標和環境之間獲得更好的泛化能力。值得注意的是,該算法可是Visual Doom AI競賽的獲勝者。

(沒有標題)

打分:8分:在所有被接受的論文中排前50%,確定接受

評價:本文提出了一種具有附加輔助內在變量的策略深度強化學習方法。

  • 該方法是一種基於通用價值函數方法的特殊例子,並且作者也在引用中標註出了正確的參考。也許這篇文章最大的技術貢獻是提煉了許多現有的方法來解決3D導航問題。我認為論文的貢獻應該在摘要中更加詳細地論述出來。

  • 我本來希望看到該方法的失敗模式。就是在什麼情況下該模型會出現改變目標的問題?並且因為這是一種策略性的方法,所以還存在其它的概念問題。比如,如果算法中的代理不在過去的目標上反覆進行訓練的話,將會出現災難性的遺忘。

  • 由於本文的主要貢獻是整合了幾個關鍵思想並且展示了經驗的優勢,所以我還希望看到其它領域的測試結果,比如Atari(也許使用ROM作為內在變量)。

總而言之,我認為這篇論文確實展現了利用所提出的潛在公式的明顯經驗優勢,並且本文的實驗見解可能對未來的代理研究具有價值。

評論:這篇論文提出了一種策略性方法來預測未來的內在測量。所有的實驗都是在名為Doom(更準確來說是vizDoom)的這款遊戲上展開的。與一般性地預測遊戲輸贏或者是遊戲得分不同,本文的作者訓練了模型來預測一系列的三元組(健康,彈藥,得分),並且由作為輸入提供的一系列“目標”三元組加權。改變目標三元組的加權是執行/指導探索的一種方式。在測試期間,只能通過最大化長期目標來實現代理的行動。

這個結果令人印象深刻,因為該模型贏得了2016年vizDoom大賽。並且本文的實驗部分看起來很合理:

  • 實驗中包含了DFP與A3C、DQN方法的比較,而且也嘗試了同DSR方法(與本文相類似的一種方法,由Kulkarni等人在2016年提出)進行比較。DFP方法在各個實驗中都超越(或者至少也是持平)了其它方法。

  • 有一項消融研究(Ablation study)能夠證明文中所有對模型“增加複雜性”的做法都是有效的。

預測內在動機(Singh et al. 2004)、輔助變量和前向建模都是強化學習中有著較好研究成果的領域。我閱讀的那個版本(12月4日修訂版)中充分參考了以前的工作,雖然還沒有做到非常全面。

我認為這篇應該被接受。可能有些人認為該論文的實驗可以在不同的環境下進行或者新穎性有限,但是我認為這篇“正確的”並且“里程碑式的”論文應該得到發表。

Via Learning to Act by Predicting the Future,雷鋒網編譯

相關推薦

推薦中...