新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

如果學習模仿人類,那最多也就只能模仿人類而已。在很多複雜的局面中,存在著人類永遠發現不了的新見解。

掀翻世界圍棋冠軍後僅僅19個月,計算機程序AlphaGo跨越了一個更大的障礙:它現在能全憑自學達到前所未有的圍棋水平。取名AlphaGo Zero的新版程序剛開始對圍棋策略一無所知,在不接受任何人為訓練的情況下,只用了三天時間,就創造出幾千年來人類圍棋手從未想到的高明策略。這項突破讓人工智能擺脫對人類知識的依賴,為智能機器的未來消除了一個主要限制。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

早期版本的AlphaGo在人類的指導下,利用兩種方法來學習圍棋。一是監督學習,研究人員把10萬場業餘高手的對局輸入程序,教它模仿人類的走法;二是強化學習,他們讓程序自己下棋,從結果中吸取經驗教訓。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

AlphaGo Zero跳過了第一步。該程序從白丁開始,只知道圍棋的規則,自己跟自己對弈。起初,它把棋子隨機地放在棋盤上。隨著時間的推移,它能更好地評估棋盤上的局勢,發現有利的落子位置。它還學會了圍棋策略中的很多訣竅,自己發明了新招數。

“如果你學習模仿人類,那最多也就只能模仿人類而已,”密歇根大學計算機科學家桑汀德·辛格(Satinder Singh)說,“在很多複雜的局面中,存在著你永遠發現不了的新見解。”

經過三天的訓練和490萬場練習賽後,研究人員讓AlphaGo Zero和曾經打敗世界圍棋冠軍的舊版AlphaGo一決高下。AlphaGo Zero取得了100:0的全勝戰績。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

在行家眼中,這個結果令人震驚。

圍棋比國際象棋複雜得多,走法多不勝數,單純的強化學習似乎無法掌握,你會認為AlphaGo Zero將永遠摸不著頭緒,盲目地尋找可行的策略。然而,它很快就培養出了人類無法企及的能力。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

高效的學習過程歸功於反饋迴路。和其前身一樣,AlphaGo Zero通過一個名為“樹搜索”的過程來確定下一步棋的走法。該程序從當前的盤面入手,考慮可能的落子位置,接著考慮對手會怎麼下,然後再考慮自己如何應對,以此類推,形成一個模擬不同落子組合、產生不同盤面的分支樹圖。

AlphaGo Zero無法窮盡搜索樹的每個分支,因為這需要極為強大的計算能力。它通過確定哪些路徑最有取勝希望,有選擇地修剪枝丫。它根據以前學到的致勝走法和盤面,來計算應該修剪哪些枝丫。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

早期版本的AlphaGo也是這麼做,但AlphaGo Zero的新穎之處在於,它不是運行樹搜索,然後走一步棋,而是記住樹搜索的結果以及對弈的結果,然後利用這些信息,調整它對具有取勝希望的走法和不同落子位置的致勝可能性的判斷。因此,下一次運行樹搜索的時候,它能利用改善後的判斷(經由以前的樹搜索結果加以訓練),來進一步改善對最佳可能走法的判斷。

AlphaGo Zero背後的計算策略很有效,特別是在擁有眾多可能性、需要找到最優解的情況下。在描述AlphaGo Zero研究的論文中,作者們寫到,他們的系統可用於材料研究(識別讓材料具有不同屬性的原子組合)和蛋白質摺疊(瞭解蛋白質的三維結構如何決定其功能)。

新版阿法狗3天超越3000年,人類邁出了被機器奴役的第一步嗎?

至於圍棋,AlphaGo Zero帶來的影響可能是驚天動地的。迄今為止,遊戲公司未能開發出世界級的圍棋軟件。AlphaGo Zero可能改變這一點。美國圍棋協會執行副總裁安德魯·傑克遜(Andrew Jackson)認為,不久後圍棋應用程序將面市。這將改變人類圍棋手的訓練方式,也將使作弊變得更容易。

對於AlphaGo來說,其未來是無限寬廣的。圍棋十分複雜,沒人知道一個能夠自學的計算機程序將達到怎樣的高度。現在,AlphaGo有了能夠匹配圍棋之廣博的學習方法。

翻譯:于波

來源:Quanta Magazine

造就:劇院式的線下演講平臺,發現最有創造力的思想

相關推薦

推薦中...