如何獎勵機器人學習？伯克利提出新算法幫助機器人確定人生方向~

算法機器人設計服裝將門創投 2019-05-31

From: BAIR 編譯: T.R

人類具有強大的溝通表達和學習能力，可以從書籍、他人和社會確立自己的學習目標和成功的結果狀態。我們可以根據外界得到的信息來確認某一任務是否完成。而對於機器人強化學習來說，需要教會他們如何學習、什麼是目標卻十分複雜。

對大多數強化學習任務來說，需要利用內部或者外部的傳感器，設計有效的表達和度量方法為他們提供驅動學習的獎勵。針對特定的新任務都需要進行特殊的設計，如果沒有特定的獎勵測定方法機器人無法有效地直接利用開放環境中的數據進行學習。

為了解決這一問題，來自伯克利的研究人員們提出了一種端到端的深度強化學習方法，無需手工設計複雜的獎勵函數就可以實現高效的任務學習。

機器人最先從約80張的圖像中進行初始化學習，在隨後進一步學習的過程中會與用戶進行交互詢問以獲取額外的標籤數據。機器人系統會向用戶展示圖像並詢問用戶這是否是機器人完成任務時的狀態。

在通過25-75次(佔總樣本的比例極小)的交互後，機器人將學習出任務目標的獎勵函數和狀態，並在1-4小時的學習後完成任務。這也是目前最為高效的基於圖像的強化學習算法之一。

基於分類器的獎勵

很多強化學習系統的獎勵都通過手工設計的方法來獲得獎勵，但研究人員提出了一種基於目標圖像的方法。首先給定針對某一任務的一系列目標圖像，隨後訓練一個分類器來區分目標/非目標圖像，分類器輸出的分數就可以作為獎勵強化學習系統。

目標圖像是直接的獎勵信號，例如給被子裡倒多少酒、疊好的衣服和餐具的擺放位置等

但直接利用分類器用於獎勵的生成在實際使用時會存在很多問題。在訓練的時候除了正向的目標樣本，我們還需要給分類器提供足夠的負樣本覆蓋所有機器人可能觀察到的情況。如果沒有窮盡負例，那麼機器人會在沒有見過的場景中失效。

下面的例子中我們可以看到面對沒有見過的環境，分類器雖然輸出了很高的概率，但機器人卻沒有完成目標，無法為機器人測策略訓練提供有效的獎勵。

為了解決機器人獎勵分類器訓練的窮盡問題，研究人員提出了一種稱為基於事件的變分逆控制方法(variational inverse control with events,VICE)，這種方法通過對抗的方法代替了對於負樣本空間的窮盡。

算法首先在隨機狀態下初始化分類器和策略，在固定分類器的情況下來最大化獎勵訓練模型；而後訓練分類器來區分用戶提供的訓練目標樣本和通過策略收集的樣本。

強化學習算法那使用這一更新後的分類器來獲取新的獎勵更新策略以達到目標，對以上過程的多次迭代訓練，直到策略指導機器人達到目標的圖像與用戶提供的目標圖像無法進一步區分。這一過程中基於逆強化學習的形式集成了生成對抗網絡，但它與標準的逆強化學習不同，無需對於樣本的描述，只需要在訓練分類器開始時用戶提供的目標/完成任務的成功圖像。

VICE對於負樣本的窮盡問題十分有效，解決了用戶需要在訓練中提供負樣本的問題。下圖中展示了基於這種方法訓練分類器，輸出的得分與真實情況的成功率十分接近，可以指導機器人進行有效學習。

主動學習

雖然VICE對於訓練分類器得到獎勵十分有效，但是它卻需要上千個正樣本來進行學習，給人類用戶帶來了很大的負擔。為了進一步解決這一問題，研究人員為機器人設計了一套主動學習的方法，在訓練過程中可以在需要的時候向人類詢問來獲取當前圖像的標籤，結合初始的少量樣本和與用戶少數交互訓練出有效的獎勵分類器。

研究人員將這一方法稱為基於主動目標問詢的強化學習(reinforcement learning with active goal queries，RAQ)。在主動問詢的過程中機器人為用戶提供一張任務過程中的圖像並詢問用戶這是否是完成任務的狀態。用戶手動地用二進制的方式來為問詢提供標籤作為額外的獎勵信號，而整個交互過程只佔了訓練過程中圖像數據的很小部分，使得這種方法在沒有手動設計獎勵的情況下能夠進行有效的學習。