伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

From:BAIR 編譯:T.R

人類具有適應環境變化的強大能力:我們可以迅速地學會住著柺杖走路、也可以在撿起位置物品時迅速地調整自己的力量輸出,甚至小朋友在不同地面上行走都能輕鬆自如地切換自己的步態和行走模式。這樣的適應能力對於在複雜多變的環境中生存活動十分重要。

但這些看似是人類與生俱來的能力,機器人拼盡全力也未必能實現。

絕大部分的機器人都被部署在固定環境中重複執行固定的動作,但面對未知的全新情況機器人就會失效,甚至是運行環境的些許變化,比如一陣風來了、負載質量改變或意外的擾動都會給機器人帶來難以處理的困難。

為了縮小機器人與人類對於環境適應能力間的差距,研究人員認為機器人預測狀態與實際觀測狀態間如果存在較大的誤差,那麼這個誤差應該要引導機器人更新自身模型,以更好地描述當前狀態,也就是快速的環境適應性。

有一個形象的例子來解釋這種適應性,很多小夥伴在開車時,特別在北方的冬天都遇到過車輛側滑的情況,駕駛員發現預測車的行駛狀況與實際不符,本來該直走的車怎麼橫著開了!這時駕駛員就根據這個誤差迅速調整自身操作來糾正車輛行駛狀態。這個過程就是我們期望機器人能夠學會的快速適應能力。

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

對於一個要面對錯綜複雜真實世界的機器人來說,從先前經驗中迅速、靈活地調整自身狀態和行為適應環境是十分重要的。為了實現這個目標,研究人員開發了一種基於模型的元強化學習算法用於提高快速適應性。

先前的工作主要基於試錯的方法和無模型的元強化學習方法來處理這一問題,而在本文的研究人員將這一問題拓展到了極端情況,機器人在面對新情況時需要實時在線、在幾個時間週期內迅速完成適應,所以實現這一目標的難度可想而知。

基於模型的元學習方法不像先前方法基於目標的獎勵來優化,而是利用每一時刻預測與觀測間的誤差作為數據輸入來處理模型。這種基於模型的方法使機器人在使用少量數據的情況下實現對環境的實時更新。

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

這一方法利用了最近的觀測數據來對模型進行更新,但真正的挑戰在於如何基於少量的數據對複雜、非線性、大容量的模型(例如神經網絡)進行自適應控制。簡單的隨機梯度下降方法對於需要快速適應的方法效率很低,神經網絡需要大量的數據來訓練模型才能實現有效的更新。所以為了實現快速的自適應調整,研究人員提出了新的方法。

首先利用自適應目標對進行(元)訓練,而後在使用時利用少量的數據進行精細訓練以實現快速適應性調整。在不同情況下訓練出的元模型將學會如何去適應,機器人就可以利用元模型在每一個時間步長上進行適應性更新以處理當前所面對的環境,以實現快速在線適應的目標。

元訓練

機器人的運動離不開對狀態的估計。在任意時刻下我們都可以對當前狀態St,施加一定的行為at,從而得到下一時刻的狀態St+1,這一狀態的變化主要由狀態轉移函數決定。在真實世界中,我們無法精確建立狀態轉移動力學過程,但可以利用學習到的動力學模型進行近似,這樣就可以基於觀測數據進行預測。上圖中的規劃器就可以利用這一估計的動力學模型來進行行為調整。

在訓練時模型會選取最近的(M+K)連續的數據點序列,首先利用M個數據來更新模型的權重,隨後利用身下的K個點來優化跟新後的模型對於新狀態的預測能力。模型的損失函數可以表達為在先前K個點上進行適應後,在未來K個點上的預測誤差。這意味著訓練模型可以利用鄰近的數據點迅速調整權重使自身可以進行較好的動力學預測。

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

為了測試這種方法對於環境突變的適應能力,研究人員首先在仿真機器人系統中進行了實驗。研究人員在相同擾動下的環境中多所有主體進行了元訓練,而在主體從未見過的環境及變化中進行測試。下面的獵豹模型在隨機浮動的擾動上進行訓練,隨後在水上浮動的情況下進行了測試,機器人展現了快速適應環境變化的能力。右圖顯示了在斷腿的情況下機器人的適應性:

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

機器人面對環境變化後的適應能力,圖中展示了基於模型的方法和基於在線自適應的方法

對於多足機器人來說,在不同腿配置的情況下進行了訓練,而在不同腿部損傷情況下進行了測試。這種基於模型的元強化學習方法使得機器人具有快速適應能力,更多的比較測試詳見文末論文。

硬件實驗

為了更好地驗證算法在真實世界中的有效性,研究人員使用了具有高度隨機性和動力學特性微型6足機器人。

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

快速製造技術和多種定製化的設計,使得每一個機器人的動力學特性都獨一無二。它的零部件性能會隨著使用逐漸退化,同時也能在不同地面上快速移動。這使機器人控制算法面臨著會隨時變化的環境狀況,十分適合用於驗證算法。

研究人員首先在不同的地面狀況下對機器人進行元訓練,隨後測試了機器在新情況下的在線適應能力。在斷腿、新地表、斜坡路況、負載變化、錯誤標定擾動等情況下都表現良好。可以看到不同情況下最右邊的在線適應方法更為穩定,適應不同情況的能力更強。

腿斷了也能盡力走直線了:

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

加上負載也不會走的歪歪扭扭:

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

位姿錯誤標定也能及時更新糾正:

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

在和標準基於模型的方法(MB)、動力學評測的方法(MB+DE)比較中都顯示了這種方法的優勢。在各個指標上都取得了遠超傳統方法的結果。

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

在未來研究人員計劃對模型進行改進,使它的能力隨著時間逐漸增長而不是每次都需要從預訓練模型進行精調。並能夠記住在學習過程中學到的技能,將在線適應的學習到的新能力作為未來遇到新情況時的先驗技能提高模型表現。

如果希望詳細瞭解這項工作,可以訪問這一項目的網頁:

https://sites.google.com/berkeley.edu/metaadaptivecontrol也可以上手測試下本文實現的代碼,作者已經封裝在docker中:

https://github.com/iclavera/learning_to_adapt

ref:
http://bair.berkeley.edu/blog/2019/05/06/robot-adapt/
https://dribbble.com/shots/6280170-Late-for-meeting

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

伯克利提出高效在線適應算法,讓機器人擁有快速適應環境變化的新能力

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

微信:thejiangmen

[email protected]

點擊“❀在看”,讓更多朋友們看到吧~

相關推薦

推薦中...