牛津大學研究展示:人類與AI合作對抗星際爭霸機器人

查爾星港獨家整理報道,轉載請註明出處!

昨日,在“The AI Summit”人工智能峰會倫敦微軟站的現場,牛津大學的機器人學習研究小組帶來了他們的成果展示:人類玩家與AI合作,在《星際爭霸》遊戲中共同對抗敵對勢力機器人。

牛津大學研究展示:人類與AI合作對抗星際爭霸機器人

展示分為兵種模式與經典模式,在兵種模式的展示中,玩家可控制一個神族龍騎士與一個狂熱者,AI控制的單位與玩家相同,而敵方機器人也控制著同數量的部隊。在過程中,AI控制的龍騎可以對玩家的走A路線進行最優化分析,從而幫助玩家進行共同集火與配合走位,當玩家的龍騎殘血後拉時,AI控制的狂熱者還可以對敵方的追擊龍騎進行卡位以及秒殘血。

而經典流程就是星際爭霸整套流程的採礦,建築,造兵,進攻,在期間你可以體會到AI化身“神隊友”的各種助攻。

牛津大學研究展示:人類與AI合作對抗星際爭霸機器人

該實驗是由懷特森研究實驗室與牛津工程部博士生的合作項目,他們將星際爭霸作為一個Multi-Agent系統①實驗平臺,研究開發和測試多智能體分層強化學習②的新方法。本次項目是基於開源的平臺TorchCraft③,它在星際爭霸與深度學習環境Torch之間架起了一道互動橋樑。

牛津大學本次展出成果後將計劃公佈他們的代碼庫,同時將論文提交給NIPS④。與其他用星際爭霸來研究人工智能的機構不同的是,牛津團隊將會把他們的研究方向著重放在分散執行上,這也就意味著,在遊戲中根據地形與局勢的不同,每個單位AI都會有自己獨立的思想、判斷再到最終的行動。目前,牛津團隊已經可以將項目轉移到微軟Azure上,這為他們擴大研究數量與範圍提供了保證。

牛津大學研究展示:人類與AI合作對抗星際爭霸機器人

許多現實世界的問題,如網絡數據迴路和城市交通控制,這些都是多智能體分層強化學習(RL)的研究範圍。然而由於在星際爭霸中,Agent所處的環境變化規律較大,使得它不符合經驗回放⑤的兼容。然而本次牛津團隊解決了這個問題,在星際爭霸的兵種微觀單位實驗中,證實了經驗回放與多智能體系統強化學習(multi-agent RL)可以成功結合。

牛津大學研究展示:人類與AI合作對抗星際爭霸機器人

註解:

①Multi-Agent系統:是多個Agent組成的集合,其多個Agent成員之間相互協調,相互服務,共同完成一個任務。它的目標是將大而複雜的系統建設成小的、彼此互相通信和協調的,易於管理的系統。

②強化學習(Reinforcement learning)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。

③TorchCraft:這是一個能讓深度學習在即時戰略類遊戲(RTS)上進行研究的庫,比如星際爭霸 Brood War。通過從機器學習框架控制這些遊戲從而使玩遊戲變得更簡單。

④NIPS:神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),簡稱NIPS,是一個關於機器學習和計算神經科學的國際會議。

⑤經驗回放:反覆使用經驗的方法叫經驗回放,通過經驗回放,Agent可以記住過去的經驗並反覆提供學習算法,從過去的策略中學習。目的可以一:加速學習過程;二:使Agent有有機會更新以前學過的東西。

相關推薦

推薦中...