零號機突破——AlphaGo圍棋大師

圍棋 文章 人工智能 微軟 情感範兒 情感範兒 2017-10-23

零號機突破——AlphaGo圍棋大師

視頻截圖

# 這費是法 投遞(不是譯稿):

人類在數千年年間累積了圍棋的知識,總結提煉為定式,棋諺和書籍。在數天的時間內,阿法狗零號機能夠從一張白紙開始重新發現大部分的圍棋知識,以及對這一古老遊戲有著深刻洞見的新策略。

DeepMind在自然上新文章——《無人類知識的情況下精通圍棋》的最後一段,如同科幻小說的開篇。某種意義上說我們低估了人工智能特定領域的發展速度,畢竟在五年前,絕大部分人的預期是我們仍要一代人的努力才能夠創造出能夠接近人類水平的電腦圍棋選手。

零號機突破——AlphaGo圍棋大師

對戰過程

零號機和樊號機(和樊輝下棋的第一代)以及李號機(和李世石下棋的第二代)的差別在於,後者是通過監督學習完成的。亦即通過人類已有的圍棋棋譜訓練策略網絡和價值網絡(兩個深度卷積的神經網絡),最後通過蒙特卡洛樹搜索結合確定落子。這樣的訓練效果受制於已知的專家數據(之前的圍棋棋譜)。零號機的網絡訓練是通過強化學習完成的。亦即通過隨機的初始狀態進行大量的情景模擬,並驅動網絡朝著最優化的方向發展。原有的兩個分離的價值網絡和策略網絡被整合成一個殘差網絡(這個應該是上年計算機視覺領域的一個大突破,微軟研究院的成果),最後通過蒙特卡洛樹搜索來完成對局的模擬並進行學習。

拋開細節不談,我們看一張論文中的圖片,對於一個經典的角部定式,零號機的學習和變化過程。真正讓人覺得激動的是中間的時間軸。50多個小時的時候我們看到了常見的定式,70個小時的時候便已經是人類未知的領域了。

相關的強化學習微軟研究院也有一篇《強化學習的混合獎勵架構》的文章,提出的深度強化學習的做法,利用多個代理的混合決策玩吃豆人遊戲。拿到了超過人類最強玩家的分數。

這一次零號機的突破可以說非常直觀的展示一個AI在特定領域越過“奇點”後的狀態。人類數千年累積的知識,在AI面前只需要數小時。

# 這費是法:作為一個蛋友,容我虛妄的做出一些建議。我們可能需要更加瘋狂的運用我們的想象力,為即將到來的鉅變做好更多的準備。畢竟塞內卡說過“折磨我們的往往是想象,而不是真實”。

# dodww 發在無聊圖的對戰圖(GIF):

零號機突破——AlphaGo圍棋大師

相關推薦

推薦中...