「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

新智元編譯

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

OpenAI今天更新博客,發佈了一種新的算法,能夠讓智能體在學習的過程中考慮到其他智能體,並且發現有利於自我同時也有利於協作的策略。這種算法被稱為“考慮對手學習情況的學習”(Learning with Opponent-Learning Awareness,LOLA),是朝向構建能夠對其他智能體建模的智能體邁出的一小步。

LOLA:首次在深度強化智能體中體現人類合作的“心智理論”

具體說,LOLA智能體“Alice”會對另一個智能體Bob的參數更新進行建模,建模的過程依賴於Alice自己的策略以及Bob參數更新對Alice預期回報的影響。然後,Alice會更新自己的策略,讓其他智能體(比如Bob)的學習步驟更有利於自己的目標。

LOLA智能體可以在遊戲(比如迭代的囚徒困境或撿硬幣遊戲)中,發現有效的互惠策略。相比之下,最先進的深度強化學習方法,比如 Independent PPO,無法在遊戲中學習這樣的策略。這些智能體一般都會學習採取自私的行為,忽視其他智能體的目標。LOLA解決了這個問題,雖然也是讓智能體採取有利於自身利益的行動,但這個行動也包含了其他智能體的目標在裡面。有了LOLA,就不需要手工制定促進合作的規則,也不需要設置環境條件鼓勵合作,智能體能自動探求傾向於合作的行為。

研究人員表示,LOLA的靈感來自於人類是如何合作的:人類非常擅長於推理自己的行動將如何影響其他人未來的行動,並且經常發明與其他人合作的方式來實現“雙贏”。人類善於合作的原因之一,是他們對其他人有一種“心智理論”(theory of mind),這讓他們制定出為合作方帶來好處的策略。

到目前為止,這種“心智理論”還沒有在深度多代理強化學習中得到體現。對於當前最先進的深度RL智能體來說,另一個智能體只是環境中第一部分,跟一棵樹沒有固有的區別。

數學證明:納入“項”進行對手學習步驟的參數建模

LOLA性能的關鍵是項的納入(inclusion of term):

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

在這裡,左邊描述了Alice的回報如何取決於Bob策略的變化。右邊描述了Bob的學習步驟如何依賴Alice的策略。兩者相乘,基本上就描述了Alice如何通過改變Bob的學習步驟讓Alice自己獎勵增加的情況。

研究人員表示,他們在訓練智能體時,智能體會嘗試在預期對手的的學習步驟之後,再對自己的回報進行優化。通過預期對手的學習步驟,智能體可以主動塑造(shape)對手的參數更新,讓對手更新的結果對自己有利。

研究人員表示,上述公式假設能夠獲得兩個價值函數的真實梯度和粗糙度(hessian),還可以使用樣本來估計所有相關的項(term)。特別地,可以通過應用策略梯度定理來估計二階項,這使得LOLA適合於任何深度強化學習環境

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

數學推導示例,詳情請參見論文

我們可以在LOLA裡增加一個步驟——對手建模,基於其他智能體的行動來預測其參數。研究人員表示,他們將來還會就此進行拓展,比如從觀察到的學習中推斷架構和獎勵。

實驗結果

LOLA可以在兩種情況下工作,一是可以獲得其他智能體的策略(LOLA),二是隻能通過跟蹤估計其他智能體的狀態(LOLA-OM)。 在撿硬幣中,兩種方法都可以拿出更多的硬幣(圖(a)),並且比其他方法的得分要高得多(圖(b))。

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

LOLA訓練出了更成功的智能體。在撿硬幣遊戲中,兩名智能體(紅和藍)相互競爭撿硬幣。硬幣也分為紅色和藍色,當智能體撿起一個與自己顏色相符的硬幣時就得1分,但撿起顏色不符的硬幣會被扣2分。因此,如果兩個智能體都很貪心地撿硬幣,不分顏色,那麼每個人平均都得0分。LOLA智能體能夠學會主要拿起與自己顏色相符的硬幣,從而得到更高的分數。

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

研究人員還探討了目前LOLA的缺點及改進方向。當使用大的批次大小和full roll-outs減少差異時,LOLA的效果最好。但這也意味著這種方法對內存和計算力的需求都很高。此外,在對手建模的情況下,LOLA不是很穩定,研究人員希望未來能夠改進並解決這個問題。

論文:考慮對手學習過程的學習

「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

摘要

在機器學習中,多智能體(multi-agent)設置變得UI而來越重要。除了最近出現的很多深度多智能體強化學習(deep multi-agent reinforcement learning)的工作外,分層強化學習(hierarchical reinforcement learning),生成對抗網絡和分散優化( decentralized optimization)都可以看作是這種設置。

但是,在這些設置中,多個 learning agent 的存在使得訓練問題不固定,而且經常導致訓練不穩定或得到不符合期望的最終結果。我們提出 Learning with Opponent-Learning Awareness(LOLA),這是推斷其他智能體的預期學習(anticipated learning )的一種方法。LOLA 學習規則包括一個額外的項(term),用於估計該agent的策略對於其他agent的預期參數更新的影響。

我們的研究顯示,可以使用似然比策略梯度更新的擴展來有效地計算LOLA更新規則,使得該方法適合於無模型強化學習(model-free reinforcement learning)。因此,該方法可以擴展到大的參數和輸入空間以及非線性函數近似。初步結果表明,兩個LOLA agent 的相遇導致“以牙還牙”( tit-for-tat)的出現,最終在無限重複囚徒困境中出現合作。

在這個領域,與原始的學習者相比,LOLA的收益也更高,而且對於基於更高階梯度的方法的開發,LOLA也是穩健的。對於無限重複猜硬幣博弈,只有LOLA智能體收斂到納什均衡。我們還將LOLA應用於使用深度遞歸策略的的嵌入式社會困境的 grid world 任務。同樣,通過考慮其他agents的學習,LOLA agents 學會了出於私利的合作。

論文地址:https://arxiv.org/abs/1709.04326

***

以牙還牙(tit for tat,也叫“投桃報李”)是一個用於博弈論的重複囚徒困境(reiterated prisoner's dilemma)非常有效的策略。“以牙還牙”策略有四個特點:

  1. 友善:“以牙還牙”者開始一定採取合作態度,不會背叛對方

  2. 報復性:遭到對方背叛,“以牙還牙”者一定會還擊報復

  3. 寬恕:當對方停止背叛,“以牙還牙”者會原諒對方,繼續合作

  4. 不羨慕對手:“以牙還牙”者個人永遠不會得到最大利益,整個策略以全體的最大利益為依歸。

在眾多策略中,“以牙還牙”是最有效的,曾連續數年擊敗由計算機科學家,經濟學家和心理學家等團隊所提出的策略。博弈論者儘管沒有實質證據,但他們認為“以牙還牙”是最佳的策略。

OpenAI博客:https://blog.openai.com/learning-to-model-other-minds/

點擊閱讀原文可查看職位詳情,期待你的加入~

相關推薦

推薦中...