阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

圍棋 阿爾法 柯潔 李世石 祥你科技 2017-06-07

阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

前言“局面仍然超出了他們的想象。阿爾法狗執黑先行一子。貝塔狗沉默許久。然後認輸。”

5月25日,中國圍棋峰會人機大戰,柯潔持白力戰阿爾法狗,中途柯潔一度以為就要輕鬆戰勝AlphaGo贏下一局,連谷歌“AlphaGo之父”哈薩比斯都在Twitter上表示:“這是一場神奇而又複雜的比賽。柯潔已經將AlphaGo逼到了極限。”可惜柯潔後續心情太過激動緊張,導致下棋失誤。目前比分2:0。

如無意外柯潔極有可能以3:0完敗阿爾法狗。如果說去年李世石抓住了阿爾法狗的弱點險勝一局,那麼這次阿爾法狗2.0版本幾乎找不到弱點!

去年的阿爾法狗主要用了三種算法,即”蒙特卡洛樹搜索”加“”監督學習”加”增強學習“”。其中蒙特卡洛樹搜索是一種升級版的暴力計算;監督學習,其實是通過記錄3000萬部人類棋譜,對六段以上職業棋手走棋規律進行效仿,這也是阿爾法狗獲得突破性進展的最為關鍵算法;而增強學習作為輔助,是兩臺阿爾法狗從自我對戰中學習如何下棋。

每當獲取棋局信息的時候,阿爾法狗會根據策略探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最幼考察的位置將成為 阿爾法狗 的最終選擇。簡單來說,阿爾法狗下棋依靠的是概率,而概率的得出則依靠前期學習。而這次與柯潔對戰的阿爾法狗相較於去年,已經判若兩“機”。

最初的阿爾法狗依靠監督,而新阿爾法狗則強化了增強學習最初的阿爾法狗主要依靠監督學習,即學習對象幾乎全部來自人類棋手,而新版的阿爾法狗則強化了增強學習,主要對機器自我對弈產生的棋局進行學習。難怪柯潔會覺得,去年阿爾法狗的下法還很接近人類,但今年自己對戰時,阿爾法狗已變得更加不合乎“常理”,下了很多人類棋手不可能下的棋子。也就是說,即便柯潔像李世石那樣下非常規的招數,阿爾法狗也能輕鬆應對。

阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

阿爾法狗那麼厲害,谷狗怎麼不弄兩臺來對戰看下?

其實人的思維和機器的邏輯是不同的東西,用邏輯對戰思維,只要運算速度足夠,邏輯占上峰很奇怪嗎?讓兩臺阿爾法狗對戰,就能真正看出邏輯和思維的差距有多大了,兩臺阿爾法狗對戰的棋局,一定是連小學生都不屑於去走的棋局,肯定是毫無格局可言的。很簡單,邏輯沒有格局,思維有,但是邏輯有模擬的能力,阿爾法狗戰勝柯潔,不過是一直在模擬阻止柯潔下一步的方式而已。

這種問題看阿爾法狗在《自然》上的論文也可略知一二。

阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

單機版和分佈式的之間對戰的話,也並不是單機版一定會輸。不同配置的計算機下跑 AlphaGo 也不一定低配置的就輸,具體比例見上截圖。補充一下,同配置先手勝率大概在 48% 左右,因為電腦看來貼目是虧了。

阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

原因是什麼呢?大概就是跑的時間不一樣吧,計算機在一毫秒內就可以進行足夠多的運算,以至於可以明顯放大即使是同配置下的微小差距(比如搜索樹更深了),這些差距增加了結果上的 “隨機性”,而這就導致了即使規定好了每步棋的時間,每一盤和前一盤都可以是不一樣的。

其實,目前的人工智能還不是很完善。以至於有人開玩笑說:阿爾法狗橫掃李世石和柯潔以及其它一切人類冠軍之後,人們決定讓兩臺阿爾法狗分別繼續訓練進化,在3個月後打一場公開賽。全球觀戰,人們都想看看圍棋的神級之戰是什麼樣的,AI能否揭示出圍棋的終極奧義。各世界頂級高手們都作好了看不懂阿爾法狗和貝塔狗的棋局的準備。但局面仍然超出了他們的想象。阿爾法狗執黑先行一子。貝塔狗沉默許久。然後認輸。

但無論怎樣,人工智能在未來都有著巨大的優勢,期待人工智能能夠帶給我們更多驚喜吧!

阿爾法狗其實真的很傻!讓兩臺阿爾法狗對戰,結果出乎你的意料

喜歡我的文章就關注我吧!

相關推薦

推薦中...