一劍西來天外飛仙:AlphaGo與圍棋變革

圍棋 柯潔 李世石 軟件 中關村在線 2017-06-08

【中關村在線原創】前不久在浙江,圍棋目前ELO等級分第一、多次世界冠軍柯潔與Deepmind的人工智能圍棋程序AlphaGo的三番棋落下了帷幕。第三盤上我們看到了柯潔的淚水。第二次人機大戰讓全人類見識到了今天的AI在卓越算法和深度神經網絡的雙重合力之下,如何征服了人類幾千年來積累的圍棋的理解與經驗。最遺憾的是,DeepMind宣佈AlphaGo收山了,世間只留下一段傳奇。

一劍西來天外飛仙:AlphaGo與圍棋變革

中國棋院授予AlphaGo第43個正式九段證書

AlphaGo的計算力與配置

這次人機大戰,第二天的AI論壇爆料很多,可惜後面記者的提問都沒有問Deepmind AlphaGo的首席David Silver更多關於AlphaGo的技術細節。但就已知的來說,李世石版本的需要1300多個處理器加上280個GPU,這個版本改進了,所以只要4個TPU就可以,所以後來公佈的棋譜,應該是部署了很多對AlphaGo一起下的,這樣可以幾天就收集到數以百計的狗的慢棋棋譜。

一劍西來天外飛仙:AlphaGo與圍棋變革

TPU2代的配置可以看出TPU:CPU大約就是2:1的比例

AlphaGo的硬件架構大幅度的縮減但是棋力卻大幅度提升,作為科技領域的記者,我在想的問題是,拋開軟件是算法,到底需要多少計算能力就能達到Master的棋力?神經網絡拼的是“神經元”節點的數量,並非CPU有多快,一般來說就是TPU:CPU=2:1。也就是說配合一個雙處理器的至強E5 2699插滿內存,加上4個TPU二代(滿打滿算,實際用的一代)就可以實現碾壓所有人類的棋力。

一劍西來天外飛仙:AlphaGo與圍棋變革

能買到的最強機器學習加速卡:nVidia的TESLA P100

再換算一下,因為我們買不到TPU,那是谷歌內部使用的。在性能測試上,TPU2的計算能力是45TFLOPS,四個就是180T,而NV剛剛公佈的新DGX-1是8個Tesla P100,有170T的能力,大體上二者相當。也就是日本的DeepZenGo的配置,雙至強2699V4+4 GTX1080其實也差不多夠了,只是“地震狗”的算法比真狗差太多。

一劍西來天外飛仙:AlphaGo與圍棋變革

TPU在AI領域被寄予了無限的希望

換言之,實際上的AlphaGo是一代TPU4個,因此可能只要4個Tesla P100可能就已經具備了相對應的計算力。Google自己搞TPU除了為自己的TensorFlow優化,還有避免花太多錢買GPU的意思,而定製的TPU還可以讓學習的效率更高。

AlphaGo的棋力極限在哪裡

很遺憾的是,我們沒有看到以後也極可能沒有機會看到AlphaGo下對頂尖棋手的讓子棋,只有內部測試的對歷史上版本的讓三個子,鑑於DeepMind一直一來的謙虛傳統,真覺得真相未必這樣。

一劍西來天外飛仙:AlphaGo與圍棋變革

DeepMind內部的測試與柯潔對戰的版本比對李世石的版本棋力要強3個子

一劍西來天外飛仙:AlphaGo與圍棋變革

AlphaGo Master版本對戰的棋譜第二盤震驚了整個圍棋界

其實結合公佈的50盤自戰譜,可以發現我們認為AlphaGo不行的什麼大混戰什麼打劫,都是井底之蛙。之前對人的60盤快棋裡面,基本都是50手左右人已經不行了,人太菜,連見識瘋狂對殺的機會也沒有。

一劍西來天外飛仙:AlphaGo與圍棋變革

人機配對賽出現了AlphaGo投降、但是古力覺得還能下的有趣一幕

再結合古力和Master配對的傳說,古力兩三手棋,就讓勝率從75%掉到了45%,AlphaGo就是下讓子棋,哪怕讓你2-3個子,你下出了立二後拆三之類的棋,它後臺勝率就能提升一截,多下幾步你覺得“正確的應對”、“必然的一手”“本手”可能就喪失了讓三個子的大優勢拉回到同一起跑線,再然後進入它的步調,當然讓子的存在可以有特殊的應對策略。

柯潔在後來的Blog裡面也說,以後如果Master再出來下棋,人應該恭恭敬敬的擺上兩個子,以表示對棋力的尊重。

千年的理論就此打破?

我們從小知道3平方+4平方=5平方,這是基本的數學。平方推廣到n的時候有沒有整數解?這是費馬定理,用到的辦法叫代數數論,在數學的層次上就高的不知道哪裡去了。最近有張流行的圖片,數學的海洋,我覺得用來比喻人與Master的差距還是很合適的。

一劍西來天外飛仙:AlphaGo與圍棋變革

數學的深淵來比喻人和AlphaGo對圍棋理解上的差距還是很合適的

所以當我們去欣賞它的著法的時候,有種深深的無力感。當時Master的60盤的時候,很多棋手就是下著下著就不行了,現在大家共同的理解是,在狗看來,它自己每一步都走到了全局看最優的地方,而我們還在拘泥於過去的傳統結構當中。

一劍西來天外飛仙:AlphaGo與圍棋變革

點星位33是圍棋初學的定式,但是AlphaGo的處理帶給我們的思考是革命性的

一劍西來天外飛仙:AlphaGo與圍棋變革

人工智能AlphaGo教授告訴我們應該這麼下,局面是兩分的

比如討論的非常多的星位點33,我覺得應該這麼看,下在星位肯定是不壞的,33點了之後取實地,哪怕只幾目,在AlphaGo的評估裡面也不算差,以後點三三的定式應該大家都按照AlphaGo的下法飛了之後頂,守角的扳了走別的地方。當然我們覺得總體來說點三三不便宜,因為人家走在外面厚,點的人裡面目不是太多。但什麼是薄什麼是厚?可能你15子的配置不如人家12個子的效率高,那就別聊薄厚了,AlphaGo早就教育我們不是面向某個方向有一些棋子就叫厚。

一劍西來天外飛仙:AlphaGo與圍棋變革

人機大戰第一局AlphaGo下到數字標號5的時候,人普遍認為是後手不好(圖:新浪棋牌新聞)

所以過去我們概念裡面的俗手、先後手、無理手這些概念真的還成立嗎?柯潔的第一盤,AlphaGo的一斷是後手,但是人家一個子關係到後面很遠的發展,所以來了個“後中先”,但說實話我覺得這就是人不如AlphaGo的地方,AlphaGo眼中那就是急所應該先走的地方。棋力遠高於所有人的Master起碼不這麼認為,步步下在全盤看來價值最大的地方,那麼它的每一步就都是先手,都有道理,沒有俗手。當然那得是它下出來的,人學個皮毛下出來的應該還是臭棋,因為你這個應對沒有算到AlphaGo那麼遠,效率低。前幾天的LG杯上就出現了不少AlphaGo自我對戰的新的著法。

什麼叫技術領先?

圍棋AI,可以分為兩種。正式比賽過的V18和Master,其它的都是仿品。

一劍西來天外飛仙:AlphaGo與圍棋變革

Nature的論文告訴了全世界AlphaGo實現的原理

其它的圍棋軟件研發團隊翹首以盼的無疑是新論文。怎麼去定義科技領先?第一篇論文發表之後,棋界表示樊麾太臭,根本不是我的對手……事實教育了李世石,也讓人感受到了它的強大之後,Master的60盤應該是讓棋界徹底服了。

一劍西來天外飛仙:AlphaGo與圍棋變革

DeepMind的哈薩比斯表示6月將發佈新論文來解釋Master為何比李世石的版本更強

但是這期間受到公開的論文啟發,誕生的模仿AlphaGo的軟件不少,投入的資源也頗多,但是都達不到正品的棋力,並且找不到改進的辦法,這就是技術落後,單無論如何,論文已經把圍棋軟件的能力帶上了一個前所未有的高度不是嗎?前年我們還都一致的認為計算機圍棋戰勝人類還得幾年呢。

一劍西來天外飛仙:AlphaGo與圍棋變革

AlphaGo只是驗證AI有效性的工具,其目標遠大

新論文很可能會告訴我們從12層深度神經網絡到40層,這28層的差異是什麼,層與層之間如何去相互影響,用什麼辦法可以提升整個軟件的效率,DeepMind說提升10倍,筆者個人覺得覺得少了,因為它的硬件配置上少了太多但是棋力更強,效率應該不止10倍。當然DeepMind那個層面考慮的是這麼做對於機器學習來說意義在於哪裡,更高效率的深度神經網絡對於整個科技界甚至謀求人類福祉的意義在哪裡,如何更好的利用而不僅僅是下圍棋。

對於其它的圍棋AI這些來說,新論文及模仿實現一定會讓這些軟件有了大幅度的棋力,Deepmind的意思也在這裡,這些軟件提升了(而且我的論文展示的技術和理論保證你也能學用),就足夠指導現在的人類頂尖高手去提升圍棋水平了。Master收山以及不玩機器對機器的對抗也就意義在於此。

相關推薦

推薦中...