「AI學會“以牙還牙”」OpenAI發佈多智能體深度強化學習新算法LOLA

人工智能數學機器學習技術新智元新智元 2017-09-17

新智元編譯

OpenAI今天更新博客，發佈了一種新的算法，能夠讓智能體在學習的過程中考慮到其他智能體，並且發現有利於自我同時也有利於協作的策略。這種算法被稱為“考慮對手學習情況的學習”（Learning with Opponent-Learning Awareness，LOLA），是朝向構建能夠對其他智能體建模的智能體邁出的一小步。

LOLA：首次在深度強化智能體中體現人類合作的“心智理論”

具體說，LOLA智能體“Alice”會對另一個智能體Bob的參數更新進行建模，建模的過程依賴於Alice自己的策略以及Bob參數更新對Alice預期回報的影響。然後，Alice會更新自己的策略，讓其他智能體（比如Bob）的學習步驟更有利於自己的目標。

LOLA智能體可以在遊戲（比如迭代的囚徒困境或撿硬幣遊戲）中，發現有效的互惠策略。相比之下，最先進的深度強化學習方法，比如 Independent PPO，無法在遊戲中學習這樣的策略。這些智能體一般都會學習採取自私的行為，忽視其他智能體的目標。LOLA解決了這個問題，雖然也是讓智能體採取有利於自身利益的行動，但這個行動也包含了其他智能體的目標在裡面。有了LOLA，就不需要手工制定促進合作的規則，也不需要設置環境條件鼓勵合作，智能體能自動探求傾向於合作的行為。

研究人員表示，LOLA的靈感來自於人類是如何合作的：人類非常擅長於推理自己的行動將如何影響其他人未來的行動，並且經常發明與其他人合作的方式來實現“雙贏”。人類善於合作的原因之一，是他們對其他人有一種“心智理論”（theory of mind），這讓他們制定出為合作方帶來好處的策略。

到目前為止，這種“心智理論”還沒有在深度多代理強化學習中得到體現。對於當前最先進的深度RL智能體來說，另一個智能體只是環境中第一部分，跟一棵樹沒有固有的區別。

數學證明：納入“項”進行對手學習步驟的參數建模

LOLA性能的關鍵是項的納入（inclusion of term）：

在這裡，左邊描述了Alice的回報如何取決於Bob策略的變化。右邊描述了Bob的學習步驟如何依賴Alice的策略。兩者相乘，基本上就描述了Alice如何通過改變Bob的學習步驟讓Alice自己獎勵增加的情況。

研究人員表示，他們在訓練智能體時，智能體會嘗試在預期對手的的學習步驟之後，再對自己的回報進行優化。通過預期對手的學習步驟，智能體可以主動塑造（shape）對手的參數更新，讓對手更新的結果對自己有利。

研究人員表示，上述公式假設能夠獲得兩個價值函數的真實梯度和粗糙度（hessian），還可以使用樣本來估計所有相關的項（term）。特別地，可以通過應用策略梯度定理來估計二階項，這使得LOLA適合於任何深度強化學習環境。

數學推導示例，詳情請參見論文

我們可以在LOLA裡增加一個步驟——對手建模，基於其他智能體的行動來預測其參數。研究人員表示，他們將來還會就此進行拓展，比如從觀察到的學習中推斷架構和獎勵。

實驗結果

LOLA可以在兩種情況下工作，一是可以獲得其他智能體的策略（LOLA），二是隻能通過跟蹤估計其他智能體的狀態（LOLA-OM）。在撿硬幣中，兩種方法都可以拿出更多的硬幣（圖(a)），並且比其他方法的得分要高得多（圖(b)）。

LOLA訓練出了更成功的智能體。在撿硬幣遊戲中，兩名智能體（紅和藍）相互競爭撿硬幣。硬幣也分為紅色和藍色，當智能體撿起一個與自己顏色相符的硬幣時就得1分，但撿起顏色不符的硬幣會被扣2分。因此，如果兩個智能體都很貪心地撿硬幣，不分顏色，那麼每個人平均都得0分。LOLA智能體能夠學會主要拿起與自己顏色相符的硬幣，從而得到更高的分數。

研究人員還探討了目前LOLA的缺點及改進方向。當使用大的批次大小和full roll-outs減少差異時，LOLA的效果最好。但這也意味著這種方法對內存和計算力的需求都很高。此外，在對手建模的情況下，LOLA不是很穩定，研究人員希望未來能夠改進並解決這個問題。

論文：考慮對手學習過程的學習

摘要

在機器學習中，多智能體（multi-agent）設置變得UI而來越重要。除了最近出現的很多深度多智能體強化學習（deep multi-agent reinforcement learning）的工作外，分層強化學習（hierarchical reinforcement learning），生成對抗網絡和分散優化（ decentralized optimization）都可以看作是這種設置。

但是，在這些設置中，多個 learning agent 的存在使得訓練問題不固定，而且經常導致訓練不穩定或得到不符合期望的最終結果。我們提出 Learning with Opponent-Learning Awareness（LOLA），這是推斷其他智能體的預期學習（anticipated learning ）的一種方法。LOLA 學習規則包括一個額外的項（term），用於估計該agent的策略對於其他agent的預期參數更新的影響。

我們的研究顯示，可以使用似然比策略梯度更新的擴展來有效地計算LOLA更新規則，使得該方法適合於無模型強化學習（model-free reinforcement learning）。因此，該方法可以擴展到大的參數和輸入空間以及非線性函數近似。初步結果表明，兩個LOLA agent 的相遇導致“以牙還牙”（ tit-for-tat）的出現，最終在無限重複囚徒困境中出現合作。

在這個領域，與原始的學習者相比，LOLA的收益也更高，而且對於基於更高階梯度的方法的開發，LOLA也是穩健的。對於無限重複猜硬幣博弈，只有LOLA智能體收斂到納什均衡。我們還將LOLA應用於使用深度遞歸策略的的嵌入式社會困境的 grid world 任務。同樣，通過考慮其他agents的學習，LOLA agents 學會了出於私利的合作。

論文地址：https://arxiv.org/abs/1709.04326

***

以牙還牙（tit for tat，也叫“投桃報李”）是一個用於博弈論的重複囚徒困境（reiterated prisoner's dilemma）非常有效的策略。“以牙還牙”策略有四個特點：

友善：“以牙還牙”者開始一定採取合作態度，不會背叛對方
報復性：遭到對方背叛，“以牙還牙”者一定會還擊報復
寬恕：當對方停止背叛，“以牙還牙”者會原諒對方，繼續合作
不羨慕對手：“以牙還牙”者個人永遠不會得到最大利益，整個策略以全體的最大利益為依歸。

在眾多策略中，“以牙還牙”是最有效的，曾連續數年擊敗由計算機科學家，經濟學家和心理學家等團隊所提出的策略。博弈論者儘管沒有實質證據，但他們認為“以牙還牙”是最佳的策略。

OpenAI博客：https://blog.openai.com/learning-to-model-other-minds/

點擊閱讀原文可查看職位詳情，期待你的加入~

相關推薦

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'「雜談」什麼是我心目中深度學習算法工程師的標準'

"有三AI平臺只專心做原創輸出很少扯淡也不蹭熱點，不過最近詢問的朋友多了，不得不統一寫篇文章來回答一下這個大家都很關心的問題，當然，這僅僅是個人觀點。作者&編輯 | 言有三目前利用深度學習這個工具可以做很多事情，各大領域(圖像，語音，NLP等)，各大行業(娛樂，金融...

人工智能算法工程師人生第一份工作 Python 招聘文章技術設計金融不完美媽媽 C語言 GitHub 數學麻將大眾汽車 Linux 2019-09-11

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'百度智能雲發佈AI質能公式，人類距離AI核爆還有多遠'

"2019年8月29日，“ABC SUMMIT 2019百度雲智峰會”在北京國家會議中心舉行。百度智能雲發佈了完全自主研發的“百度崑崙雲服務器”等1 8大智能基礎設施新品，與百度智能雲合作的央視網“AI編輯部”、精研科技智能質檢車間、重慶市氣象局智慧氣象系統、國家電網智能客...

百度人工智能百度雲技術雲計算騰訊大數據國家電網人臉識別區塊鏈京東商城深度學習阿里巴巴集團語音識別技術馬化騰圖像處理 Google 華為公司 GPU 運營商無人駕駛李彥宏阿爾伯特·愛因斯坦知識產權 2019-09-01

'智能出行多簡單？新寶駿啟用手機鑰匙，車聯網深度定製體驗'

"從智能手機到智能家居、從智能家居到智能出行，"智能"概念漸漸深入到了我們生活中，而在進入到現代汽車製造後，"車機"概念便成為了智能出行的一大載體與結晶，很多傳統汽車製造商通過改造現有產品進行功能融合與研發。但只有上汽通用五菱成立了全新獨立品牌——新寶駿，來進行徹底和全方位...

寶駿汽車智能手機智能家居智能出行現代汽車語音識別技術轎車軟件人工智能技術我的第一部5G手機人機交互上汽通用五菱 2019-09-01

'OPPO Reno Z拍照體驗：聯發科P90的AI相機算法能有多強大？'

"AI拍照，是近兩年來越來越多被手機廠商提到的概念。它是什麼意思呢？說白了就是“傻瓜相機”，我們只要輕輕一按快門，相機就會對拍攝場景進行人工智能分析，然後自動匹配拍照模式，獲得最佳的成片。而說到AI，不得不提到近年十分重視AI的聯發科。Helio P90的 AI算力跑分在蘇...

OPPO 人工智能聯發科技照相機攝影算法技術設計硬件 2019-08-17

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'秒殺小米，海信HZ55E7D深度體驗，AI聲控開啟大屏智能新時代'

"隨著人們對於智能電視的需求，越來越多的廠商加入了智能電視的行列。相對於傳統的電視，智能電視可以解放雙手，讓操作更加簡單。但是智能電視的價格千變萬化，從幾千元到上萬元不等，應該如何選擇一款適合自己的智能電視呢？今天風叔給大家帶來一款海信最新推出的海信HZ55E7D智能電視，...

海信集團智能電視人工智能小米手機設計電視機操作系統時尚藍牙 U盤軟件愛奇藝 HDMI 良心國貨大賞優酷土豆電子遊戲機 Android 2019-08-02

'機器學習算法已成量化投資跑贏市場的新推手 | 智周報告核心版'

"區別於傳統基本面分析和技術面分析，量化分析是從數量化的角度去挖掘存在某種數學關係的投資策略。結合機器學習算法的量化投資方法已在量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、算法交易等多類量化證券投資策略中應用。如今各類量化投資基金聘用機器學習算法科學家，組建人...

算法投資人工智能金融證券投資基金私募基金期貨數據挖掘期指自然語言處理私募技術分析師公募新聞數學人生第一份工作歷史 2019-07-30

'OpenAI與微軟達成獨家計算合作，打造新的Azure AI超級計算技術'

"深入思考人工智能(AI)在世界上的作用，以及如何建立安全、可信和合乎道德的AI從而為公眾服務的微軟公司(Microsoft Corp.)和OpenAI已經建立合作，進一步擴展微軟Azure在大型AI系統中的功能。微軟和OpenAI將聯合開發新的Azure AI超級計...

微軟 Azure 人工智能技術薩提亞·納德拉薩帝亞·納德拉機器人硬件人生第一份工作納斯達克 2019-07-28

'「AI不惑境」深度學習中的多尺度模型設計'

"大家好，這是專欄《AI不惑境》的第七篇文章，講述計算機視覺中的多尺度問題。進入到不惑境界，就是向高手邁進的開始了，在這個境界需要自己獨立思考。如果說學習是一個從模仿，到追隨，到創造的過程，那麼到這個階段，應該躍過了模仿和追隨的階段，進入了創造的階段。從這個境界開始，講述的...

人工智能算法設計圖像處理卡爾·高斯盜夢空間 2019-07-26

'ARM | 語音算法+AI 芯片，驅動下一個智能十年'

"2019年7月18日，第二屆Arm人工智能開發者全球峰會在上海舉行，全球頂尖人工智能領域精英齊聚一堂，分享最權威的產業觀點，最前沿的通用AI技術及平臺方案，以及底層硬件芯片標準化趨勢，旨在幫助廣大AI開發者打通從芯片、硬件方案、計算庫、深度學習框架到應用的全產業鏈。深聰智...

人工智能算法 ARM 技術硬件智能手機雲計算人機交互智能電視物聯網機器人上海設計大數據軟件 2019-07-20

'3D重建傳統算法對比深度學習，SFU譚平：更需要的是二者的融合'

"機器之心原創作者：一鳴近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。近日，機器之心發表文章《 3...

算法譚平深度學習技術城市規劃大學高能小子終極裝備無人駕駛弗雷澤加拿大機器人新加坡國立大學照相機測繪不列顛哥倫比亞大學機器學習新加坡文章麻省理工學院浙江大學 2019-07-19

'網易易盾AI工程師出席ICME 2019 展示int8量化新算法'

"上週，全球計算機多媒體頂級會議ICME 2019（國際多媒體與博覽會議）在上海圓滿結束，網易易盾深度學習資深研發工程師姚益武受邀出席會議，展示了網易易盾在深度卷積神經網絡int8量化算法上的最新研究成果。ICME簽到處ICME由 IEEE 下設的計算機學會、電路與系統學會...

算法人工智能工程師網易電腦技術文本分析 GPU 英偉達硬件上海設計 2019-07-18

'使用機器學習算法來構建智能聊天機器人'

"翻譯 | CDA數據分析研究院，轉載需授權原文 | https://blog.statsbot.co/chatbots-machine-learning-e83698b1a91e你是否曾與蘋果的Siri，亞馬遜的Alexa，微軟的Cortana或其他助手交談以設置鬧鐘、給...

人工智能算法機器人 Siri 文章 Alexa Internet 微軟小娜微軟哲學 2019-07-16

自動駕駛AI算法和多傳感器融合技術

摘要：在自動駕駛的世界中，基於定義，可以劃分出六個等級：ADAS（高級駕駛員輔助系統）和自動駕駛（AD）的0-5級。0-2級與ADAS有關，它是一種基礎的...

無人駕駛算法技術人工智能軟件雷達硬件交通掃描儀攝像放像機 2019-07-09

胡迎法當選武漢市律師協會新會長、全球首個“AI虛擬法官”發佈、全國律師行業黨委表彰一批先進典型丨律界情報（165）

律新社丨編輯部出品律新社《律界情報》根據法律科技平臺、律所官網、公眾號發佈信息及相關聯繫人提供內容整理，歡迎各大法律服務機構主動提供新聞動態。投稿郵箱：l...

法律浙江省安徽重慶武漢刑法香港人工智能廣東廣州上海跳槽那些事兒華政熊選國新聞路易·威登杭州投資青島民法 2019-07-09

7 Papers | 深度強化學習綜述、圖靈71年前未發表的智能機器論文

機器之心整理機器之心編輯部Google AI 大牛、谷歌大腦負責人 Jeff Dean 曾統計過一個數據：平均每天全世界都會產生 100 篇機器學習新論文。已經相當忙碌的 AI 從業者如何有針對性的選擇優質論文學習呢？機器之心「7 Papers」為大家整理了過去一週備受關注...

深度學習人工智能阿蘭·圖靈 Google 技術算法設計 Facebook Stack Overflow 特斯拉汽車 2019-07-04

提升AI深度學習推理運算能力~威聯通 Mustang-V100/F100加速卡

繼去年的Mustang 200系列後，近日QNAP（威聯通）又更新發布了兩款運算加速卡，分別是：Mustang-V100 和Mustang-F100兩款，...

人工智能 GPU 英特爾操作系統人生第一份工作 2019-06-20

讓機器像人類一樣學習？伯克利 AI 研究院提出新的元強化學習算法

“可實現異步策略元強化學習！”AI 科技評論按：如果要讓機器人擁有人的學習能力，應該怎麼做？伯克利 AI 研究院給出了一個很好的答案——元強化學習（met...

人工智能算法機器人文章語音識別技術 2019-06-18

推薦中...