如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

算法 機器人 設計 服裝 將門創投 2019-05-31
如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

From: BAIR 編譯: T.R

人類具有強大的溝通表達和學習能力,可以從書籍、他人和社會確立自己的學習目標和成功的結果狀態。我們可以根據外界得到的信息來確認某一任務是否完成。而對於機器人強化學習來說,需要教會他們如何學習、什麼是目標卻十分複雜。

對大多數強化學習任務來說,需要利用內部或者外部的傳感器,設計有效的表達和度量方法為他們提供驅動學習的獎勵。針對特定的新任務都需要進行特殊的設計,如果沒有特定的獎勵測定方法機器人無法有效地直接利用開放環境中的數據進行學習。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

為了解決這一問題,來自伯克利的研究人員們提出了一種端到端的深度強化學習方法,無需手工設計複雜的獎勵函數就可以實現高效的任務學習。

機器人最先從約80張的圖像中進行初始化學習,在隨後進一步學習的過程中會與用戶進行交互詢問以獲取額外的標籤數據。機器人系統會向用戶展示圖像並詢問用戶這是否是機器人完成任務時的狀態。

在通過25-75次(佔總樣本的比例極小)的交互後,機器人將學習出任務目標的獎勵函數和狀態,並在1-4小時的學習後完成任務。這也是目前最為高效的基於圖像的強化學習算法之一

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

基於分類器的獎勵

很多強化學習系統的獎勵都通過手工設計的方法來獲得獎勵,但研究人員提出了一種基於目標圖像的方法。首先給定針對某一任務的一系列目標圖像,隨後訓練一個分類器來區分目標/非目標圖像,分類器輸出的分數就可以作為獎勵強化學習系統。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

目標圖像是直接的獎勵信號,例如給被子裡倒多少酒、疊好的衣服和餐具的擺放位置等

但直接利用分類器用於獎勵的生成在實際使用時會存在很多問題。在訓練的時候除了正向的目標樣本,我們還需要給分類器提供足夠的負樣本覆蓋所有機器人可能觀察到的情況。如果沒有窮盡負例,那麼機器人會在沒有見過的場景中失效。

下面的例子中我們可以看到面對沒有見過的環境,分類器雖然輸出了很高的概率,但機器人卻沒有完成目標,無法為機器人測策略訓練提供有效的獎勵。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

為了解決機器人獎勵分類器訓練的窮盡問題,研究人員提出了一種稱為基於事件的變分逆控制方法(variational inverse control with events,VICE),這種方法通過對抗的方法代替了對於負樣本空間的窮盡。

算法首先在隨機狀態下初始化分類器和策略,在固定分類器的情況下來最大化獎勵訓練模型;而後訓練分類器來區分用戶提供的訓練目標樣本和通過策略收集的樣本。

強化學習算法那使用這一更新後的分類器來獲取新的獎勵更新策略以達到目標,對以上過程的多次迭代訓練,直到策略指導機器人達到目標的圖像與用戶提供的目標圖像無法進一步區分。這一過程中基於逆強化學習的形式集成了生成對抗網絡,但它與標準的逆強化學習不同,無需對於樣本的描述,只需要在訓練分類器開始時用戶提供的目標/完成任務的成功圖像。

VICE對於負樣本的窮盡問題十分有效,解決了用戶需要在訓練中提供負樣本的問題。下圖中展示了基於這種方法訓練分類器,輸出的得分與真實情況的成功率十分接近,可以指導機器人進行有效學習。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

主動學習

雖然VICE對於訓練分類器得到獎勵十分有效,但是它卻需要上千個正樣本來進行學習,給人類用戶帶來了很大的負擔。為了進一步解決這一問題,研究人員為機器人設計了一套主動學習的方法,在訓練過程中可以在需要的時候向人類詢問來獲取當前圖像的標籤,結合初始的少量樣本和與用戶少數交互訓練出有效的獎勵分類器。

研究人員將這一方法稱為基於主動目標問詢的強化學習(reinforcement learning with active goal queries,RAQ)。在主動問詢的過程中機器人為用戶提供一張任務過程中的圖像並詢問用戶這是否是完成任務的狀態。用戶手動地用二進制的方式來為問詢提供標籤作為額外的獎勵信號,而整個交互過程只佔了訓練過程中圖像數據的很小部分,使得這種方法在沒有手動設計獎勵的情況下能夠進行有效的學習。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

圖中顯示了機器人問詢人類用戶時,用戶提供了二進制label幫助機器人進行主動學習而無需人工設計獎勵函數。

通過將分類器得到獎勵函數的方法與主動學習方法結合,研究人員提出的VICE-RAQ方法可以在只用80個目標圖像樣本的情況下進行有效的學習,在25-75次與用戶的問詢交互後就能掌握強化學習任務,僅需要耗時1-4小時即可以掌握真實世界中的操作任務,相比於其他基於圖像的方法速度大幅提升。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

不同訓練時間和問詢次數後機器人學習的表現

非剛體的學習任務

為了進一步探索算法的能力,研究人員還將這一算法用於難以手工定義獎勵函數的任務中,並研究瞭如何將一塊布鋪在盒子上的過程。這一任務中機器人不僅需要將布展平不能有褶皺,同時還需要準確地將柔軟物體鋪在制定的位置。

研究人員使用了末端執行器的位姿來作為觀測結果,並利用了手工定義的獎勵函數和自動學習的損失函數進行對比。可以看到手工定義的歐式距離將使得機器人學習直線運動的,無法有效鋪好布,而基於學習得到的強化學習函數則可以學會劃出完美的弧線鋪好桌布。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

多目標條件任務

除了鋪桌布的非剛體問題,對於向書架裡插入書本這樣的多目標問題也是機器人面臨的典型問題。書架中的空位很多也是隨機的,有很多個可以插入書的位置,從不同的位置出發可能會有不同的目標結果。

那麼到底要放在哪裡呢?從下面的圖中可以看到通過這種方法的學習,機器人可以選擇離初始最為接近的位置插入書本,這意味著算法學習到了獎勵函數來最大化機器人把書本插入最近的位置。

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

結論

這種新的方法可以無需人類設計獎勵函數來進行強化學習訓練,同時結合了主動學習的方法來訓練有效的分類器為算法的策略學習提供獎勵。

在無需額外設備和手工獎勵設計的情況下可以幫助機器人在真實世界中直接基於圖像改進性能,這意味著機器人可以直接從真實世界中學習,並可以與世界進行更多的交互來改進自身。這種方法促進了機器人強化學習算法在真實世界中進行自動地、有效地、實用地對多種任務進行有效學習。

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

如何獎勵機器人學習?伯克利提出新算法幫助機器人確定人生方向~

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

微信:thejiangmen

[email protected]

點擊“❀在看”,讓更多朋友們看到吧~

相關推薦

推薦中...