柯潔即將再次對戰Alpha Go,能否成功為人類“雪恥”?

圍棋 柯潔 人工智能 李世石 粹客網 2017-04-11

去年,Alpha Go 打敗了來自韓國的世界頂級圍棋棋手李世石。在那場對決過後,人工智能的所具有的潛力開始越來越多地為普通大眾所熟知,同時也給圍棋界帶來了不少的震撼。轉眼到了 2017 年,近日,DeepMind 團隊又帶著 Alpha Go 來到了圍棋的發源地——中國,參加了由中國圍棋協會、浙江省體育局以及谷歌聯手舉辦的世界頂級圍棋峰會。同時,谷歌還宣佈,Alpha Go 將於下個月在無錫展開對柯潔的新一輪“人機圍棋大戰”。

據瞭解,在這場將於下個月到來的圍棋大戰中,將由對賽和團隊賽兩種比賽形式組成。在第一種形式——“Pair Go”比賽中,Alpha Go 將於人類棋手聯手,對戰另一方同樣是由 Alpha Go 和人類棋手組成的隊伍。之所以採用這種形式,是為了讓人類更好地理解 Alpha Go 的機制,同時發揮人類棋手和機器決策過程中的最大優勢;

而在團隊賽中,Alpha Go 將對戰由 5 名中國頂尖棋手組成的隊伍。之所以採用這種“一對多”的形式,是為了建立起更加全面的“智囊團“,同時降低心理因素對棋手們的影響,使其發揮出最大的水平,做出更加客觀的判斷。

雖然柯潔也曾經在年前由 Alpha Go 化身的“Master“比賽中一度輸給了後者,然而這場比賽依然值得期待。據 Alpha Go 背後的團隊 DeepMind 介紹,新版的 Alpha Go 將會採用一種更新型的機器學習技術,能夠充分利用監督學習以及強化學習的優勢。

柯潔即將再次對戰Alpha Go,能否成功為人類“雪恥”?

具體說來,搭載了監督學習以及強化學習技術的 Alpha Go 能夠通過訓練形成相應的“策略網絡“,在輸入當前棋盤上的局勢信息之後,對所有可行的落子位置生成概率分佈。完成這些之後,Alpha Go 還會通過訓練出來的價值網絡對各種下法進行自我對弈完成預測,以-1(對方完全勝利優勢)到 1(Alpha Go 完全勝利優勢)為區間,對各種下法進行判斷。

將這兩種網絡結合起來使用的 Alpha Go 實力估計和以往相比會有非常大幅度的進步和跨越。不僅如此,Alpha Go 還將這兩種網絡整合進了其基於概率的蒙特卡羅樹搜索(MCTS)中,發揮這兩種網絡的最大潛力。而且這種通過自我對弈進行計算的模式,將會為 Alpha Go 未來版本的訓練提供更多的原始數據,從而讓 Alpha Go 的每一代都“青出於藍而勝於藍”。

“人工智能實際上促使了人類玩家變得更加強大、更具創意。”DeepMind 的聯合創始人兼首席執行官 Demis Hassabis 表示。“顯然,Alpha Go 與人類的合作將會挖掘到更多的東西。”

相關推薦

推薦中...