魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
之後,輔助編碼器會幫助AI學習其他全局遊戲的屬性特徵。
這些特徵既會被用到執行網絡中,也會被用到指導網絡中。
為了訓練這個框架,Facebook收集了5392個遊戲的數據集,這些遊戲都由兩人協同進行,一人指揮,一人操作。數據集包含了76000種人類配合情況,涵蓋了廣泛的策略。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
之後,輔助編碼器會幫助AI學習其他全局遊戲的屬性特徵。
這些特徵既會被用到執行網絡中,也會被用到指導網絡中。
為了訓練這個框架,Facebook收集了5392個遊戲的數據集,這些遊戲都由兩人協同進行,一人指揮,一人操作。數據集包含了76000種人類配合情況,涵蓋了廣泛的策略。
兩種模型都在有監督的情況下訓練。
由於用來訓練指導網絡的數據集來自於人類語言,指導網絡並不能直接形成原始的指令句,所以AI不得不學習推理,“理解”自然語言,而後制定戰略計劃並予以實施。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
之後,輔助編碼器會幫助AI學習其他全局遊戲的屬性特徵。
這些特徵既會被用到執行網絡中,也會被用到指導網絡中。
為了訓練這個框架,Facebook收集了5392個遊戲的數據集,這些遊戲都由兩人協同進行,一人指揮,一人操作。數據集包含了76000種人類配合情況,涵蓋了廣泛的策略。
兩種模型都在有監督的情況下訓練。
由於用來訓練指導網絡的數據集來自於人類語言,指導網絡並不能直接形成原始的指令句,所以AI不得不學習推理,“理解”自然語言,而後制定戰略計劃並予以實施。
並且,這一模型不僅能生成自然語言命令,還能結合上下文閱讀理解。
神奇的是,這麼一通折騰,AI真的變強了。
不僅能像人類一樣給出合理的指令,比如說何時造農民,何時造飛龍,在與用其他方法訓練的AI對手對戰的時候,基於NLP的AI勝率達到了57.9%。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
之後,輔助編碼器會幫助AI學習其他全局遊戲的屬性特徵。
這些特徵既會被用到執行網絡中,也會被用到指導網絡中。
為了訓練這個框架,Facebook收集了5392個遊戲的數據集,這些遊戲都由兩人協同進行,一人指揮,一人操作。數據集包含了76000種人類配合情況,涵蓋了廣泛的策略。
兩種模型都在有監督的情況下訓練。
由於用來訓練指導網絡的數據集來自於人類語言,指導網絡並不能直接形成原始的指令句,所以AI不得不學習推理,“理解”自然語言,而後制定戰略計劃並予以實施。
並且,這一模型不僅能生成自然語言命令,還能結合上下文閱讀理解。
神奇的是,這麼一通折騰,AI真的變強了。
不僅能像人類一樣給出合理的指令,比如說何時造農民,何時造飛龍,在與用其他方法訓練的AI對手對戰的時候,基於NLP的AI勝率達到了57.9%。
One More Thing
另闢蹊徑,用自然語言來教AI打遊戲,並不是研究人員們一時心血來潮的小娛樂。
使用自然語言來作為分層決策的輔助手段,實際上是在推助人工智能利用和理解自然語言能力的提升,使其能夠應用於更加廣闊的場景,例如,如何讓AI更好地適應不熟悉的任務和環境。
此外,這項研究或許也能催生出更懂人類口頭或書面指令的AI系統,從而使殘障人士能夠更容易地使用各種現代電子設備。
玩轉游戲,只是AI的第一步。
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
怎麼教AI打遊戲呢?當然是直接下指令啦。
告訴AI造農民,基地就開始唰唰往外吐農民:
指揮農民挖礦造兵工廠,一句話同樣搞定:
發現敵方大龍,當然是直接開打啊:
前線打得歡,經濟也不能落下:
這是來自Facebook AI的MiniRTSv2,不以微操取勝,它能用自然語言教會AI如何玩轉實時戰略遊戲。
這項研究登上了NeurIPS 2019,代碼、模型、數據集均已開源。
自然語言指導即時戰略
MiniRTSv2是一款專為人工智能研究而設計的精簡策略遊戲。在遊戲中,玩家需要指揮弓箭手、大龍和農民等單位打爆對手老巢。
雖然要比DOTA2,星際爭霸這樣的商業遊戲簡單得多,但MiniRTSv2依然是一款複雜的即時戰略遊戲。
開局同樣是一張隱藏地圖。
AI必須考慮到大型狀態-動作空間帶來的複雜情況,協同不同的兵種,並根據對手的行動調整戰略佈局。
與AlphaStar這樣直接模仿人類策略的AI不同,在MiniRTSv2中,Facebook AI嘗試了一條新的路徑,讓AI先用自然語言生成計劃,再交由單獨的模型執行操作。
也就是說,這是一個分層決策的過程。系統通過兩個AI模型來執行任務,一個負責不斷觀察遊戲狀態,並用自然語言給出指令,即指導網絡;另一個需要解讀指令並執行決策,即執行網絡。
在遊戲環境的每個時間步驟上,觀察編碼器會對每個遊戲對象(遊戲單位,建築物或資源)的空間位置和非空間內部狀態進行編碼。
這一編碼器會為每個單位,資源生成單獨的特徵向量。
之後,輔助編碼器會幫助AI學習其他全局遊戲的屬性特徵。
這些特徵既會被用到執行網絡中,也會被用到指導網絡中。
為了訓練這個框架,Facebook收集了5392個遊戲的數據集,這些遊戲都由兩人協同進行,一人指揮,一人操作。數據集包含了76000種人類配合情況,涵蓋了廣泛的策略。
兩種模型都在有監督的情況下訓練。
由於用來訓練指導網絡的數據集來自於人類語言,指導網絡並不能直接形成原始的指令句,所以AI不得不學習推理,“理解”自然語言,而後制定戰略計劃並予以實施。
並且,這一模型不僅能生成自然語言命令,還能結合上下文閱讀理解。
神奇的是,這麼一通折騰,AI真的變強了。
不僅能像人類一樣給出合理的指令,比如說何時造農民,何時造飛龍,在與用其他方法訓練的AI對手對戰的時候,基於NLP的AI勝率達到了57.9%。
One More Thing
另闢蹊徑,用自然語言來教AI打遊戲,並不是研究人員們一時心血來潮的小娛樂。
使用自然語言來作為分層決策的輔助手段,實際上是在推助人工智能利用和理解自然語言能力的提升,使其能夠應用於更加廣闊的場景,例如,如何讓AI更好地適應不熟悉的任務和環境。
此外,這項研究或許也能催生出更懂人類口頭或書面指令的AI系統,從而使殘障人士能夠更容易地使用各種現代電子設備。
玩轉游戲,只是AI的第一步。
傳送門
Facebook博客:
https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/
論文地址:
https://arxiv.org/pdf/1906.00744.pdf
項目地址:
https://github.com/facebookresearch/minirts
數據集:
https://drive.google.com/file/d/1jwagQN_Gdd83SylQEmnS3JYPomsyCsft/view
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態