'人工智能除了會下圍棋,現在還學會了打美國麻將?'

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:Jupiterimages/Stockbyte/Getty Images

也就是說,對於德州撲克而言,一旦贏,就能贏很多(If you win, you win big)。

如果你充分理解了德州撲克的規則,你就會發現,當牌桌上有多個玩家時,有時你不需要擁有最好的那手牌來取勝,而是讓其餘玩家以為你有一手好牌,並自動放棄。你甚至可以讓別人以為你有一手爛牌,循循誘導對手下注……

這個技能在德撲中叫做“詐唬”,英文是bluffing,也可以說是拼演技。許多世界頂尖級德撲選手,演技都可以去衝奧斯卡了。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:Jupiterimages/Stockbyte/Getty Images

也就是說,對於德州撲克而言,一旦贏,就能贏很多(If you win, you win big)。

如果你充分理解了德州撲克的規則,你就會發現,當牌桌上有多個玩家時,有時你不需要擁有最好的那手牌來取勝,而是讓其餘玩家以為你有一手好牌,並自動放棄。你甚至可以讓別人以為你有一手爛牌,循循誘導對手下注……

這個技能在德撲中叫做“詐唬”,英文是bluffing,也可以說是拼演技。許多世界頂尖級德撲選手,演技都可以去衝奧斯卡了。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“毒王“Tom Dwan就經常在比賽中露出呆滯的眼神來迷惑對手。

而AI已經學會詐唬了,而且詐得比人類還要好。

02 Pluribus是如何養成的

Pluribus與之前那些棋盤類遊戲和雙人對峙撲克遊戲最大的區別是,它很難做出精確的納什均衡判斷。

納什均衡是博弈論中的一個重要術語,由數學家約翰·納什提出。關於納什均衡的一個著名思想實驗就是“囚徒困境”,下面插入一段小小的科普。

囚徒困境

警察抓到兩個嫌疑犯,知道兩個有罪,卻缺乏足夠的證據,因此想到一個辦法讓兩人都坦白。

警察分開審訊兩人,並對他們說,

如果兩人都抵賴,則各判一年;

如果兩個都坦白,則各判八年;

如果你們之中一人坦白,另一個抵賴,則坦白的人釋放,抵賴的判十年。

在旁觀者看來,對雙方而言最好的結果是都選擇抵賴。但作為其中一個囚犯,在無法確定另一人的行為的情況下,只能選擇坦白。因為假如自己選擇抵賴,而另一人選擇坦白,自己會被判十年。選擇坦白最好的結果是釋放,最差的結果只是判八年。

雙方的平衡策略都是為了達到自己期待利益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。這樣的策略組合叫做納什均衡。

在多人遊戲中,納什均衡就變得很難計算了。因此,設計Pluribus的團隊用到的策略是讓它從自我博弈中提升它的決策能力。這種自我博弈被成為“藍圖策略”。藍圖策略允許Pluribus在與其它玩家對戰的過程中,實時調整策略,並找到更好的解決方法。

在開發階段,職業玩家Darren Elias曾參與Pluribus的設計。一開始,Elias與五個Pluribus的分身玩,在過程中不斷地提醒開發者們有哪些可以改進的地方。後來,掌握了玩牌技巧後的Pluribus分出六個分身不停地練習,直到技巧越來越精湛。

“它進步得非常快,從中等水平進階到世界頂級撲克玩家的水平,只需要幾天或幾周。這是非常恐怖的。”Elias說道。

“人們一直以為‘詐唬’是人類專有的技能,你要學會從一個人的眼神中讀出他的內心。”Pluribus的開發者之一Noam Brown博士說,“但其實就只是數學而已,沒有什麼太複雜的。通過設計一個AI算法,我們可以做出比任何人類都更擅長詐唬的機器人。”

03 德撲也許就此改變

“感到很絕望。好像完全沒有辦法贏”。面對Pluribus的詐唬,打德撲15年的職業玩家Jason Les說道。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:Jupiterimages/Stockbyte/Getty Images

也就是說,對於德州撲克而言,一旦贏,就能贏很多(If you win, you win big)。

如果你充分理解了德州撲克的規則,你就會發現,當牌桌上有多個玩家時,有時你不需要擁有最好的那手牌來取勝,而是讓其餘玩家以為你有一手好牌,並自動放棄。你甚至可以讓別人以為你有一手爛牌,循循誘導對手下注……

這個技能在德撲中叫做“詐唬”,英文是bluffing,也可以說是拼演技。許多世界頂尖級德撲選手,演技都可以去衝奧斯卡了。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“毒王“Tom Dwan就經常在比賽中露出呆滯的眼神來迷惑對手。

而AI已經學會詐唬了,而且詐得比人類還要好。

02 Pluribus是如何養成的

Pluribus與之前那些棋盤類遊戲和雙人對峙撲克遊戲最大的區別是,它很難做出精確的納什均衡判斷。

納什均衡是博弈論中的一個重要術語,由數學家約翰·納什提出。關於納什均衡的一個著名思想實驗就是“囚徒困境”,下面插入一段小小的科普。

囚徒困境

警察抓到兩個嫌疑犯,知道兩個有罪,卻缺乏足夠的證據,因此想到一個辦法讓兩人都坦白。

警察分開審訊兩人,並對他們說,

如果兩人都抵賴,則各判一年;

如果兩個都坦白,則各判八年;

如果你們之中一人坦白,另一個抵賴,則坦白的人釋放,抵賴的判十年。

在旁觀者看來,對雙方而言最好的結果是都選擇抵賴。但作為其中一個囚犯,在無法確定另一人的行為的情況下,只能選擇坦白。因為假如自己選擇抵賴,而另一人選擇坦白,自己會被判十年。選擇坦白最好的結果是釋放,最差的結果只是判八年。

雙方的平衡策略都是為了達到自己期待利益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。這樣的策略組合叫做納什均衡。

在多人遊戲中,納什均衡就變得很難計算了。因此,設計Pluribus的團隊用到的策略是讓它從自我博弈中提升它的決策能力。這種自我博弈被成為“藍圖策略”。藍圖策略允許Pluribus在與其它玩家對戰的過程中,實時調整策略,並找到更好的解決方法。

在開發階段,職業玩家Darren Elias曾參與Pluribus的設計。一開始,Elias與五個Pluribus的分身玩,在過程中不斷地提醒開發者們有哪些可以改進的地方。後來,掌握了玩牌技巧後的Pluribus分出六個分身不停地練習,直到技巧越來越精湛。

“它進步得非常快,從中等水平進階到世界頂級撲克玩家的水平,只需要幾天或幾周。這是非常恐怖的。”Elias說道。

“人們一直以為‘詐唬’是人類專有的技能,你要學會從一個人的眼神中讀出他的內心。”Pluribus的開發者之一Noam Brown博士說,“但其實就只是數學而已,沒有什麼太複雜的。通過設計一個AI算法,我們可以做出比任何人類都更擅長詐唬的機器人。”

03 德撲也許就此改變

“感到很絕望。好像完全沒有辦法贏”。面對Pluribus的詐唬,打德撲15年的職業玩家Jason Les說道。

人工智能除了會下圍棋,現在還學會了打美國麻將?

眼露絕望的Jason Les。

因為Pluribus的開發是完全脫離人類玩撲克的數據的,它在與自己博弈的過程中學會了一套獨特的打牌方式。

Pluribus往往敢於下巨大的賭注來進行誇張的詐唬,比任何人類玩家下賭注時都要“狠”。Elias說,很少有人類玩家感像它一樣這麼頻繁地出大招。另外,Elias還說Pluribus幾乎不會像人類玩家一樣用最小的賭注來留在賭局中。它往往會大膽地加註。Elias從Pluribus身上學到這些技巧後,也開始運用到自己的比賽中。

Brown博士說,Pluribus已經可以當人類的老師了,可以預想到未來人類德撲玩家的玩牌方式也會被改變。

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:Jupiterimages/Stockbyte/Getty Images

也就是說,對於德州撲克而言,一旦贏,就能贏很多(If you win, you win big)。

如果你充分理解了德州撲克的規則,你就會發現,當牌桌上有多個玩家時,有時你不需要擁有最好的那手牌來取勝,而是讓其餘玩家以為你有一手好牌,並自動放棄。你甚至可以讓別人以為你有一手爛牌,循循誘導對手下注……

這個技能在德撲中叫做“詐唬”,英文是bluffing,也可以說是拼演技。許多世界頂尖級德撲選手,演技都可以去衝奧斯卡了。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“毒王“Tom Dwan就經常在比賽中露出呆滯的眼神來迷惑對手。

而AI已經學會詐唬了,而且詐得比人類還要好。

02 Pluribus是如何養成的

Pluribus與之前那些棋盤類遊戲和雙人對峙撲克遊戲最大的區別是,它很難做出精確的納什均衡判斷。

納什均衡是博弈論中的一個重要術語,由數學家約翰·納什提出。關於納什均衡的一個著名思想實驗就是“囚徒困境”,下面插入一段小小的科普。

囚徒困境

警察抓到兩個嫌疑犯,知道兩個有罪,卻缺乏足夠的證據,因此想到一個辦法讓兩人都坦白。

警察分開審訊兩人,並對他們說,

如果兩人都抵賴,則各判一年;

如果兩個都坦白,則各判八年;

如果你們之中一人坦白,另一個抵賴,則坦白的人釋放,抵賴的判十年。

在旁觀者看來,對雙方而言最好的結果是都選擇抵賴。但作為其中一個囚犯,在無法確定另一人的行為的情況下,只能選擇坦白。因為假如自己選擇抵賴,而另一人選擇坦白,自己會被判十年。選擇坦白最好的結果是釋放,最差的結果只是判八年。

雙方的平衡策略都是為了達到自己期待利益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。這樣的策略組合叫做納什均衡。

在多人遊戲中,納什均衡就變得很難計算了。因此,設計Pluribus的團隊用到的策略是讓它從自我博弈中提升它的決策能力。這種自我博弈被成為“藍圖策略”。藍圖策略允許Pluribus在與其它玩家對戰的過程中,實時調整策略,並找到更好的解決方法。

在開發階段,職業玩家Darren Elias曾參與Pluribus的設計。一開始,Elias與五個Pluribus的分身玩,在過程中不斷地提醒開發者們有哪些可以改進的地方。後來,掌握了玩牌技巧後的Pluribus分出六個分身不停地練習,直到技巧越來越精湛。

“它進步得非常快,從中等水平進階到世界頂級撲克玩家的水平,只需要幾天或幾周。這是非常恐怖的。”Elias說道。

“人們一直以為‘詐唬’是人類專有的技能,你要學會從一個人的眼神中讀出他的內心。”Pluribus的開發者之一Noam Brown博士說,“但其實就只是數學而已,沒有什麼太複雜的。通過設計一個AI算法,我們可以做出比任何人類都更擅長詐唬的機器人。”

03 德撲也許就此改變

“感到很絕望。好像完全沒有辦法贏”。面對Pluribus的詐唬,打德撲15年的職業玩家Jason Les說道。

人工智能除了會下圍棋,現在還學會了打美國麻將?

眼露絕望的Jason Les。

因為Pluribus的開發是完全脫離人類玩撲克的數據的,它在與自己博弈的過程中學會了一套獨特的打牌方式。

Pluribus往往敢於下巨大的賭注來進行誇張的詐唬,比任何人類玩家下賭注時都要“狠”。Elias說,很少有人類玩家感像它一樣這麼頻繁地出大招。另外,Elias還說Pluribus幾乎不會像人類玩家一樣用最小的賭注來留在賭局中。它往往會大膽地加註。Elias從Pluribus身上學到這些技巧後,也開始運用到自己的比賽中。

Brown博士說,Pluribus已經可以當人類的老師了,可以預想到未來人類德撲玩家的玩牌方式也會被改變。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“我只是一個機器,我沒得感情。”

圖源:Online Poker Report

Reference

Daniela Hernandez (2019, July 11). Computers Can Now Bluff Like a Poker Champ. Better, Actually. The Wall Street Journal

Noam Brown, Tuomas Sandholm ((2019, July 11). Superhuman AI for multiplayer poker. Science

"

“藤之聲—聽見另一種聲音”


最近,Facebook和卡內基梅隆大學的研究人員設計的一個名叫Pluribus的AI在六人德州撲克遊戲中,成功擊敗其餘五名職業玩家。

這對人工智能領域來說是一個全新的突破。兩年前,同一個團隊開發的Libratus曾在1對1德撲中擊敗了4名全球頂級職業玩家。而這一次的1對5,難度是指數級的增長。與AlphaGo在圍棋遊戲中的運籌帷幄不同,Pluribus更像一個奸詐的賭場老手,要學會與對手爾虞我詐,贏得最後的勝利。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:JACK HAMILTON | UNSPLASH

01 德州撲克

德州撲克在美國的受歡迎程度,就像麻將在中國。

如果一個美國人跟你說他在打poker,那多半就是在玩德州撲克。

德撲在我國(據說在上流社會)也是越來越流行(請自行百度汪峰與章子怡的“緣起德撲”)。

德州撲克之所以受歡迎,就是因為它的規則易學,獎勵力度大。

(胡說,小編這個牌痴研究了整整兩個小時才弄懂德州撲克的規則...)

與鬥地主一類的牌類遊戲不一樣,德州撲克更像是賭博。玩家得到的信息非常有限,需要從有限的信息中推測出勝算。除了牌面上的信息,職業玩家往往還需要判斷對方的風格、節奏,從一個微妙的眼神或小動作中抓住對方的馬腳,也得學會藏住自己的馬腳。也就是說,這是一個檢驗心裡素質和反偵察能力的遊戲。

接下來簡單地跟大家介紹一下風靡全球的德州撲克的遊戲規則!會打的或者不感興趣的同學可以直接跳過。(不是教你們賭博,是為了更好的理解人工智能哦!)

每個玩家手中從頭到尾只有兩張牌,需要與公共區域的五張牌進行組合,得到比其他玩家大的組合形式。

德州撲克中有10種牌型組合。最大的牌是“皇家同花順”,即花色一樣的10, J, Q, K, A五張牌。最小的是五張沒有對子花色也不一樣的牌。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:網易撲克

公共區域的五張牌是荷官先發三張,然後再發第四張,最後再發出第五張。在每一輪發牌前後,玩家可以根據自己手中牌的好壞來決定是下注還是棄牌。想要在這局遊戲中玩下去,就得下注,並且下的籌碼得跟之前的玩家一樣多(跟注)或者下更多(加註);如果覺得自己的牌太爛,可以及時棄牌,也能避免輸掉更多籌碼。

人工智能除了會下圍棋,現在還學會了打美國麻將?

開局時每個玩家手上兩張牌。圖片中荷官剛發出前三張公共牌。

到最後,桌上的大半玩家都會棄牌,剩下的人在第五張公共牌發完後展示自己的牌。能夠組成最大花色的玩家獲勝,並贏得所有玩家從開局到結束所下的賭注。

人工智能除了會下圍棋,現在還學會了打美國麻將?

圖源:Jupiterimages/Stockbyte/Getty Images

也就是說,對於德州撲克而言,一旦贏,就能贏很多(If you win, you win big)。

如果你充分理解了德州撲克的規則,你就會發現,當牌桌上有多個玩家時,有時你不需要擁有最好的那手牌來取勝,而是讓其餘玩家以為你有一手好牌,並自動放棄。你甚至可以讓別人以為你有一手爛牌,循循誘導對手下注……

這個技能在德撲中叫做“詐唬”,英文是bluffing,也可以說是拼演技。許多世界頂尖級德撲選手,演技都可以去衝奧斯卡了。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“毒王“Tom Dwan就經常在比賽中露出呆滯的眼神來迷惑對手。

而AI已經學會詐唬了,而且詐得比人類還要好。

02 Pluribus是如何養成的

Pluribus與之前那些棋盤類遊戲和雙人對峙撲克遊戲最大的區別是,它很難做出精確的納什均衡判斷。

納什均衡是博弈論中的一個重要術語,由數學家約翰·納什提出。關於納什均衡的一個著名思想實驗就是“囚徒困境”,下面插入一段小小的科普。

囚徒困境

警察抓到兩個嫌疑犯,知道兩個有罪,卻缺乏足夠的證據,因此想到一個辦法讓兩人都坦白。

警察分開審訊兩人,並對他們說,

如果兩人都抵賴,則各判一年;

如果兩個都坦白,則各判八年;

如果你們之中一人坦白,另一個抵賴,則坦白的人釋放,抵賴的判十年。

在旁觀者看來,對雙方而言最好的結果是都選擇抵賴。但作為其中一個囚犯,在無法確定另一人的行為的情況下,只能選擇坦白。因為假如自己選擇抵賴,而另一人選擇坦白,自己會被判十年。選擇坦白最好的結果是釋放,最差的結果只是判八年。

雙方的平衡策略都是為了達到自己期待利益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。這樣的策略組合叫做納什均衡。

在多人遊戲中,納什均衡就變得很難計算了。因此,設計Pluribus的團隊用到的策略是讓它從自我博弈中提升它的決策能力。這種自我博弈被成為“藍圖策略”。藍圖策略允許Pluribus在與其它玩家對戰的過程中,實時調整策略,並找到更好的解決方法。

在開發階段,職業玩家Darren Elias曾參與Pluribus的設計。一開始,Elias與五個Pluribus的分身玩,在過程中不斷地提醒開發者們有哪些可以改進的地方。後來,掌握了玩牌技巧後的Pluribus分出六個分身不停地練習,直到技巧越來越精湛。

“它進步得非常快,從中等水平進階到世界頂級撲克玩家的水平,只需要幾天或幾周。這是非常恐怖的。”Elias說道。

“人們一直以為‘詐唬’是人類專有的技能,你要學會從一個人的眼神中讀出他的內心。”Pluribus的開發者之一Noam Brown博士說,“但其實就只是數學而已,沒有什麼太複雜的。通過設計一個AI算法,我們可以做出比任何人類都更擅長詐唬的機器人。”

03 德撲也許就此改變

“感到很絕望。好像完全沒有辦法贏”。面對Pluribus的詐唬,打德撲15年的職業玩家Jason Les說道。

人工智能除了會下圍棋,現在還學會了打美國麻將?

眼露絕望的Jason Les。

因為Pluribus的開發是完全脫離人類玩撲克的數據的,它在與自己博弈的過程中學會了一套獨特的打牌方式。

Pluribus往往敢於下巨大的賭注來進行誇張的詐唬,比任何人類玩家下賭注時都要“狠”。Elias說,很少有人類玩家感像它一樣這麼頻繁地出大招。另外,Elias還說Pluribus幾乎不會像人類玩家一樣用最小的賭注來留在賭局中。它往往會大膽地加註。Elias從Pluribus身上學到這些技巧後,也開始運用到自己的比賽中。

Brown博士說,Pluribus已經可以當人類的老師了,可以預想到未來人類德撲玩家的玩牌方式也會被改變。

人工智能除了會下圍棋,現在還學會了打美國麻將?

“我只是一個機器,我沒得感情。”

圖源:Online Poker Report

Reference

Daniela Hernandez (2019, July 11). Computers Can Now Bluff Like a Poker Champ. Better, Actually. The Wall Street Journal

Noam Brown, Tuomas Sandholm ((2019, July 11). Superhuman AI for multiplayer poker. Science

人工智能除了會下圍棋,現在還學會了打美國麻將?

“藤之聲—聽見另一種聲音”

更多留學,就業,專業選擇以及各種趣味冷知識等相關資訊請搜索關注微信公眾號“藤之聲”(ID:gh_3d797a7216e8)——一個致力於傳播優質乾貨的公眾號,或掃描上方二維碼關注哦。

"

相關推薦

推薦中...