伯克利提出高效在線適應算法，讓機器人擁有快速適應環境變化的新能力

機器人算法人工智能技術硬件設計體育將門創投 2019-05-08

From:BAIR 編譯:T.R

人類具有適應環境變化的強大能力：我們可以迅速地學會住著柺杖走路、也可以在撿起位置物品時迅速地調整自己的力量輸出，甚至小朋友在不同地面上行走都能輕鬆自如地切換自己的步態和行走模式。這樣的適應能力對於在複雜多變的環境中生存活動十分重要。

但這些看似是人類與生俱來的能力，機器人拼盡全力也未必能實現。

絕大部分的機器人都被部署在固定環境中重複執行固定的動作，但面對未知的全新情況機器人就會失效，甚至是運行環境的些許變化，比如一陣風來了、負載質量改變或意外的擾動都會給機器人帶來難以處理的困難。

為了縮小機器人與人類對於環境適應能力間的差距，研究人員認為機器人預測狀態與實際觀測狀態間如果存在較大的誤差，那麼這個誤差應該要引導機器人更新自身模型，以更好地描述當前狀態，也就是快速的環境適應性。

有一個形象的例子來解釋這種適應性，很多小夥伴在開車時，特別在北方的冬天都遇到過車輛側滑的情況，駕駛員發現預測車的行駛狀況與實際不符，本來該直走的車怎麼橫著開了！這時駕駛員就根據這個誤差迅速調整自身操作來糾正車輛行駛狀態。這個過程就是我們期望機器人能夠學會的快速適應能力。

對於一個要面對錯綜複雜真實世界的機器人來說，從先前經驗中迅速、靈活地調整自身狀態和行為適應環境是十分重要的。為了實現這個目標，研究人員開發了一種基於模型的元強化學習算法用於提高快速適應性。

先前的工作主要基於試錯的方法和無模型的元強化學習方法來處理這一問題，而在本文的研究人員將這一問題拓展到了極端情況，機器人在面對新情況時需要實時在線、在幾個時間週期內迅速完成適應，所以實現這一目標的難度可想而知。

基於模型的元學習方法不像先前方法基於目標的獎勵來優化，而是利用每一時刻預測與觀測間的誤差作為數據輸入來處理模型。這種基於模型的方法使機器人在使用少量數據的情況下實現對環境的實時更新。

這一方法利用了最近的觀測數據來對模型進行更新，但真正的挑戰在於如何基於少量的數據對複雜、非線性、大容量的模型（例如神經網絡）進行自適應控制。簡單的隨機梯度下降方法對於需要快速適應的方法效率很低，神經網絡需要大量的數據來訓練模型才能實現有效的更新。所以為了實現快速的自適應調整，研究人員提出了新的方法。

首先利用自適應目標對進行（元）訓練，而後在使用時利用少量的數據進行精細訓練以實現快速適應性調整。在不同情況下訓練出的元模型將學會如何去適應，機器人就可以利用元模型在每一個時間步長上進行適應性更新以處理當前所面對的環境，以實現快速在線適應的目標。

元訓練

機器人的運動離不開對狀態的估計。在任意時刻下我們都可以對當前狀態St，施加一定的行為at，從而得到下一時刻的狀態St+1，這一狀態的變化主要由狀態轉移函數決定。在真實世界中，我們無法精確建立狀態轉移動力學過程，但可以利用學習到的動力學模型進行近似，這樣就可以基於觀測數據進行預測。上圖中的規劃器就可以利用這一估計的動力學模型來進行行為調整。

在訓練時模型會選取最近的（M+K）連續的數據點序列，首先利用M個數據來更新模型的權重，隨後利用身下的K個點來優化跟新後的模型對於新狀態的預測能力。模型的損失函數可以表達為在先前K個點上進行適應後，在未來K個點上的預測誤差。這意味著訓練模型可以利用鄰近的數據點迅速調整權重使自身可以進行較好的動力學預測。

為了測試這種方法對於環境突變的適應能力，研究人員首先在仿真機器人系統中進行了實驗。研究人員在相同擾動下的環境中多所有主體進行了元訓練，而在主體從未見過的環境及變化中進行測試。下面的獵豹模型在隨機浮動的擾動上進行訓練，隨後在水上浮動的情況下進行了測試，機器人展現了快速適應環境變化的能力。右圖顯示了在斷腿的情況下機器人的適應性：