'博弈論和納什平衡是如何改變遊戲的？'

博弈論約翰·福布斯·納什數學大學物理設計就是那個傢伙撲克 Bingo漠如雪啊 2019-07-15

前言

一直感覺在大學畢業之後學完的東西會有所落下，例如運籌學。但現在來看，利用這些知識分析遊戲裡面的對局和遊戲數據也不失是一種樂趣，今天我們就講一下博弈論在遊戲中的應用吧，不過我想先講一下什麼是博弈論。

博弈論是一個數學門類,但是他可以分析多人遊戲中的行動和對策之間的交互行為。不過雖然從名字上看它與遊戲有千絲萬縷的聯繫,但是人們在遊戲時經常會忽略博弈論,因為它看起來過於抽象,似乎和現實世界格格不入。我們不需要像那些精通數學的博弈論者一樣計算精確的數字,但是博弈論的基礎也確實例述了多人遊戲設計的一些關鍵理念。而博弈論能夠幫助我們分析那些必須對彼此的行為做出預測和迴應的狀況。

前言

正文

想象一下,摧毀一座荒廢的城堡和擠滿敵人的城堡之間的區別。摧毀一座無人的城堡只是一個物理問題。可能你需要做的是,找到最合適的位置來放置起重機,或者找到清理瓦礫的最佳方案。雖然這些任務也會比較複雜,但是無人的城堡並不會對你的部署做出反應,它只會遵循物理定律而己。因此,這個過程類似於一個單機遊戲,因為從始至終都只有一名玩家在對抗這個固有機制的系統。但想要攻陷一個滿城守衛的城堡就大不相同了。現在,有兩個高智商的思維在鬥智鬥勇。防守方的將軍會對你的行動進行預判,並做出迴應。

他會推倒你的攻城梯,用火燒你的攻城錘,以及派出刺客去刺殺你的將軍。同時,他也會預判你將會採取哪些對應策略。他可能會拋出一個錯誤的消息來引誘你自投羅網,或者試圖隱藏城牆中的一個缺陷。博弈論則描述了你們思維之間的這種交互。想象一下在圍城期間的一個晚上,你需要部署第二天的策略。你的選擇有兩個:一是用攻城錘直接攻擊大門,二是讓工兵炸燬圍牆。而防守方也有兩個應對的策略:一是在大門處準備好一大鍋易燃的焦油,二是預備一些弓箭手來阻止你的工兵。你們雙方的人力都只能滿足兩個選項中的一個,並且由於你需要頭一天晚上就制訂好策略,所以在第二天戰鬥打響之前你並不知道對方會採取什麼應對的措施。博弈論者可以用收益矩陣來描述這種情況,如下圖所示。

前言

正文

正如你看到的那樣,並沒有最好的方案。雙方做出的決定會產生什麼結果依賴於對方的決定,每一方都有機會通過預測對方的行動來贏得戰鬥。你並不是靠更大的攻城錘來獲勝,而是需要找到欺騙對手的方法,讓他以為你會直接攻擊大門,而實際上你卻用工兵進行偷襲。這個遊戲中城牆以及弓箭已經不再重要,真正重要的是習慣、假設、信息,以及計謀。這就是博棄論能夠派上用場的一種情況。博弈論並不僅僅和競爭有關,還包括所有必須響應對手行動的玩家之間的交互比如只有一個玩家能贏的"零和博弈"遊戲就是其中的一種類型。此外還包括合作類型的遊戲,以及幾個玩家的目標在某種程度上能夠達成一致、因此出現兼有競爭和合作的情況等等。

不過,即使是進攻重兵把守的城堡也不是嚴格意義上的零和遊戲,因為其中一方可以投降,或者請求通過和平方式來解決衝突。舉一個典型的非競技性博弈論的例子。這個例子中有兩個不同部落的人,分別是狗頭人和貓頭人。由於生活在不同的部落,有一天當他們要決定去哪裡打獵的時候,彼此之間無法達成一致。他們每個人都必須在捕鹿或者捕兔子中做出選擇。如果他們都選擇了捕鹿,他們就可以合作捕獲一隻鹿,這樣的話他們都能吃得飽。另外,兔子只需要單獨一個人就可以抓到,所以如果選擇了捕兔子,也能保證有飯吃,只是不一定吃得飽。但是,如果一個人選擇了捕兔子,另外一個人選擇了捕鹿的話,捕鹿的那個傢伙就沒的吃了。

前言

正文

就像爭奪城堡的戰鬥一樣,貓頭人和狗頭人的選擇都依賴於對方的選擇。他們需要考慮的並不只是決定捕鹿還是捕兔子那麼簡單,他們真正需要考慮的是預測對方的決策將會如何。他們不但要考慮自己的飢餓程度,還要考慮對方的飢餓程度,甚至還要考慮對方認為自己的飢餓程度如何等等。

這是一種類似撲克的思維遊戲,每一個玩家都試圖預測和操縱他人的思維。而這正是一種博弈論的思維方式，如果有他積極地思考應該如何對付你,那麼遊戲就不只是遊戲機制那麼簡單了。遊戲將會變成兩個思維之間的博弈,雙方都希望將對方玩弄於股掌之間。對於熱衷於競技的玩家而言,這才是他們夢寐以求的勝利。在我們繼續往下分析之前,首先我想闡明一種定義。

博弈論者和遊戲設計師對於"遊戲"這個詞的理解是截然不同的,對於博弈論者來說,遊戲是一種策略之間明確的交互行為。比如,在博弈論裡"石頭剪子布"的一個回合就是一個遊戲。但是對於遊戲設計而言,遊戲是包括一整套機制的系統,而不是一個單獨的決策點。為了強調兩者的區別,從這裡開始我會把博弈論遊戲稱為"策略交互"。設計的遊戲內容會包含許多策略交互,而每一種策略交互都可以運用博弈論來分析和研究。

這個簡單的詞語定義問題成許就是博弈論在遊戲設計中經常被忽略的原因。博弈論無法處理"真人快打"的整個回合,所以很多人會認為,在對遊戲進行分析時,它是毫無作用的。但是實際上,對於分析一個特定的轉瞬即逝的交互,比如拳擊、防倒,或者摔投,它恰恰是最好的方法。它並不能用於分析整場足球比賽,但是它能夠預測玩家射門的角度,以及守門員撲救的方向。不過博弈論並不適用於整個遊戲設計方案,只有當我們位於策略交互的層次,而不是針對整個遊戲的設計時,它的作用才會凸顯出來。

博弈論的核心理念是"納什均衡"如果在一種策略配置中,每個參與者都無法憑藉獨自改變自己的略來獲得更亮的收益,那麼這種策略配置就稱作納什均衡。下面我們來仔細分析一下這個概念。

前言

正文

首先,納什均衡是一種策略配置。策略配置是一個集合,其中包含了所有玩家有可能會做出的選擇。收益矩陣中的每一個方格都是一種策略配置。在之前捕鹿的例子中,"狗頭人捕鹿貓頭人捕兔子"是一種策略配置同樣的,"兩個人都捕兔子"和"狗頭人捕兔子貓頭人捕鹿",以及"兩個人都捕鹿"都是策略配置。納什均衡是一種特別的策略組合。具體而言,在這種策略組合中,如果某個玩家假定其他人都不改變策略,那麼他自己也不需要改變策略。這個觀點看起來似乎很隨性,然而事實證明它將會起到舉足輕重的作用。

比如在捕鹿的那個例子中,一共有兩種納什均衡。第一種是兩個獵人都選擇捕鹿。在這種情況下,雙方都會得到最好的結果。如果有其中一方改變了主意去捕兔子,他得到的食物就會少得多。第二種納什均衡是兩個獵人都選擇捕兔子。這種情況比較有趣,因為它展現出了納什均衡的微妙之處:納什均衡的策略配置對所有人來說,並不一定都是最優的、如果兩個人都選擇捕兔子的話,理論上他們可以一起改變主意去捕鹿,這樣就可以得到更多的食物。但是如果只有其中一方去捕鹿,那麼捕鹿的獵人就會捱餓,而另一位獵人還有兔子肉可以吃。所以,即使雙方都選擇捕兔子並不是最佳方案,卻仍然達到了納什均衡。

納什均衡在多人遊戲中至關重要,因為遊戲玩法往往會朝著納什均衡的方向發展。納什均衡是穩定和能夠自我鞏固的,因為所有玩家都不需要做出改變,非納什均衡的配置是不穩定和能夠自我變化的,因為玩家總會有原因需要改變自己的策略。一個遊戲中也許存在成千上萬種策略組合,但是真正被玩家採用的也許只有納什均衡。於是,遊戲體驗將會由各種納什均衡的情況所組成,其他的策略組合就好像根本不存在一樣。

前言

正文

這就是為什麼在創建遊戲時有一點至關重要,即遊戲中的策略交互需要具備多種納什均衡,或者是完全沒有納什均衡的原因。只含有一種純粹納什均衡的策略交互是遊戲設計的一個敗筆,因為最終總是會導致出現相同的納什均衡的情況。也就是說,對於每一個玩家而言,真正可行的選項只有一個,所以也就不存在真正的決策了。

如果只有一種納什均衡,那麼所有的玩家都會非常清楚應該怎麼做,因此他們就不需要預測或者是思考其他玩家的行為,這個遊戲就是枯燥乏味的。同時,每一個玩家都試圖預測其他玩家將會制訂哪種決策的思維博弈也不復存在了。那些具有多種納什均衡的情況(比如之前捕鹿的例子)則要好一些,因為每一個玩家都會思考其他玩家會怎麼做。不過即便如此,這種情況依然是可以進一步改進的。最好的情況就是徹底清除掉納什均衡。

比如在之前爭奪城堡的例子中,並不存在單純的納什均衡。無論策略配置如何,其中一方總是可以通過改變自己的選擇來做得更好。這就是一種優秀的遊戲設計,因為如果知道其他玩家將會怎麼做,就總是能夠得到豐厚的回報,並且從中所產生的預測、矇騙,以及操縱他人的過程無疑是十分吸引人的。所以,如果你設計了一種具有納什均衡的策略交互,那麼最好重新設計一番,或者是調整下平衡性,以去除納什均衡。非納什均衡的交互通常被稱作"石頭剪子布"機制,因為"石頭剪子布"是最廣為人知的非納什均衡遊戲。在玩"石頭剪子布"的時候,無論策略配置如何,玩家總是想要改變自己的出招。用收益矩陣來表示的話,看起來就像下圖這樣。

前言

正文

當然也有更簡單的思考方式。

前言

正文

當然也有更簡單的思考方式。

在許多遊戲中都有這種由相互剋制的功能所組成的三角模式。比如在格鬥遊戲中,防禦剋制出拳,摔投剋制防禦,出拳剋制摔投。在戰略遊戲中,槍兵剋制騎兵,弓箭手剋制槍兵,騎兵剋制弓箭手。這種三角形的相互剋制會出現在無數遊戲之中,因為如果我們想要創建一個對稱和非納什均衡的遊戲,這就是最簡單的方法。然而,與流行的理念不同,"石頭剪子布"這個三角模式並不是唯一消除了納什均衡的設計結構。

想一下之前的城堡戰爭,在那個例子中總共有4種選擇,而不是3種,並且每一個玩家都有兩種選擇。這個例子和"石頭剪子布"有所不同,然而它同樣也沒有納什均衡。對於那些所有玩家都具備相同功能的對稱遊戲而言,"石頭剪子布"模式消除了納什均衡。但是對於城堡戰爭那樣的非對稱遊戲而言,我們需要使用一種不同的設計模式,模式的名字來自於另一個古老的遊戲:猜硬幣。

在"猜硬幣"遊戲中,一名玩家猜測兩枚硬幣是同一面朝上的。然後雙方各自手持一枚硬幣,硬幣有可能正面朝上,也有可能反面朝上,接著他們同時展示兩枚硬幣。如果兩枚硬幣都是相同的一面,那麼猜測兩校硬幣是同一面向上的玩家就贏了。反之，則是另一個玩家獲勝。

前言

正文

當然也有更簡單的思考方式。

"猜硬幣"模式在多人遊戲中十分常見,只是它很少被冠以這個名字。比如之前的城堡戰爭就是一個"猜硬幣"模式的遊戲,因為防守方希望將他的防守力量都部署在你的進攻點上,而你則不希望他猜對你的進攻點在哪裡。在多人射擊遊戲中,如果你需要在一個有兩扇門的房間裡保護目標,那麼你就是在玩"猜硬幣"遊戲。你希望自己防守的大門正好是敵人進攻的那扇門,而對方則希望從你沒有防備的另外一扇門趁虛而入,從背後偷襲你。在某個二戰的遊戲中,防守方需要決定是否花費一些資源來佈置地雷,而進攻方則需要決定是否花費資源派出一些掃雷工兵。你當然不希望自己佈置的地雷輕易地就被對方清理掉,同時你也不想看到自己派出的掃雷工兵忙了半天卻一無所獲。

我們來看一個應用了"猜硬幣"設計模式的真實例子。在《星際爭霸2》中,使用蟲族和使用人族的玩家之間戰鬥時,雙方的主力通常都是這4種單位:人族的"坦克"和"機槍兵",以及蟲族的"自爆蟲"和"異龍"。他們之間的關聯性如下圖所示。

前言

正文

當然也有更簡單的思考方式。

異龍能夠飛行,自然可以剋制坦克,但因為坦克不能攻擊空中的單位。機槍兵的高攻擊可以輕易地擊落脆弱的異龍。自爆蟲可以使用帶有濺射效果的酸液融化成群結隊的機槍兵。坦克可以從遠距離炸死大量柔弱的自爆蟲。《星際爭霸2》的許多比賽都可以歸結為這4種單位之間的重複交互。在聯網的情況下,你可以利用這種模式產生的一系列變化玩上數百個小時。即便如此,你玩的時候也不會覺得無聊,因為遊戲中不存在納什均衡,於是每一個玩家總是有機會通過預測或者矇蔽對手來獲得回報。其實這個遊戲的重點並不在於如何控制陸戰隊員和異龍,而在於預測對手的思維和行動。

對於策略類的交互而言,唯有"石頭剪子布"和"猜硬幣"是優雅的設計模式,"石頭剪子布"適用於對稱性遊戲,"猜硬幣"適用於非對稱性遊戲。其他任何方法都只是無意義地累加更多的策略而已。比如,在"石頭——剪子——布——鉗子——水瓶"裡面,每一個元素都可以剋制其他兩個元素,就像下圖所示。

前言

正文

當然也有更簡單的思考方式。

只不過,雖然"石頭——剪子——布——鉗子——水瓶"的決策選項更多,實際上卻並沒有比"石頭剪子布"增色多少,沒有納什均衡就是沒有納什均衡,增加更多的元素並不會豐富遊戲的預測性和謀略性。更多的選項也許會增加一些虛構層面的吸引力,但是如果考慮到學習成本的話,則有可能會得不償失。

不過,石頭剪刀布這個遊戲依然具有一種混合的納什均衡。混合的納什均衡是這樣的一種納什均衡:預設一系列具有固定概率的策然後讓玩家從中隨機選擇一種策略。

比如在"石頭剪子布"模式中,雖然不存在單純的納什均衡,但是仍然存在一種混合的納什均衡。這個遊戲要求玩家出石頭、剪子、布的概率均為33.3%。由於任何玩家都不能通過單獨改變這種配置而獲益,所以最終也會形成一種納什均衡(既然對手的出招是完全隨機的,那麼你如何應對就顯得無關緊要了,因為你獲勝的概率總是50%)。然而其他混合在"石頭剪子布"中的策略卻未必是均衡的。比如說,你選擇出石頭的概率是35%,出剪子和布的概率各是32.5%,那麼你的對手就可以改變他自身的策略,通過總是出布來擊敗你。如果一個玩家能夠通過改變自身策略而獲益,那麼就不能稱之為納什均衡。

在諸如"石頭剪子布"和"猜硬幣"這樣簡單的遊戲中,設計出混合的納什均衡絕非難事,因為遊戲的雙方必定有一方會大獲全勝,同時另一方會一敗塗地。然而這屬於特殊情況。對於大多數真正需要策略的遊戲交互而言,不同的結果對應著不同的收益。比如在格鬥遊戲中,格擋可以完全不受傷害地抵擋直拳攻擊,直拳則可以剋制摔投並造成少量的傷害,而摔投又可以剋制格擋並造成大量傷害。這種設計類似於如下版本的"石頭剪子布"如果你出剪子或布獲勝就可以獲得1塊錢,但是如果你出石頭獲勝就可以獲得5塊錢。其收益矩陣如下圖所示。

前言

正文

當然也有更簡單的思考方式。

在這種情況下,有一種天真的策略是每一局都出石頭,以此期望獲得5塊錢的收益。然而問題在於,這種策略可能會被對方猜到,這樣的話,對方可以每一局都出布,你將會輸得血本無歸。如果想要在這個遊戲中脫穎而出,需要制訂一種能夠隨機出石頭、剪子,或者布的混合策略。但不能只是像普通的"石頭剪子布"遊戲那樣平均地出招,因為對方可以更多地選擇出石頭來提高他的收益。那麼,應該如何出手才能最大化自己的收益呢? 現在就輪到博弈論中的數學因素起作用了。在給定一種策略交互以及一系列相關收益的前提下,博弈論者就可以精確地計算出產生納什均衡的混合策略所需要的各種概率。

例如足球比賽中罰點球可以讓球飛行的速度達到每小時200KM,足球以這種速度從罰球點處飛進球門只需要大約1/5秒的時間。這麼短的時間不足以讓守門員在看清球的路線之後,再躍起和阻擋球飛入球門。守門員唯的機會是在球被踢中之前就躍起。與此同時,負責罰點球的球員必須選擇將球踢向球門的哪一側,而此時他也並不知道守門員會撲向哪一側。這就是一種"猜硬幣"方式的遊戲。守門員希望猜到球飛行的方向而罰點球的球員則希望知道守門員會如何撲救。

前言

正文

當然也有更簡單的思考方式。

在罰點球的遊戲裡,球員的收益就是可能會得分。此外還有一個不平等的收益,因為每一名球員都有自己擅長進球的方向,他們將球踢向球門某一側的成功率會比另一側更高。也就是說,即使守門員撲救方向正確。只要該球員將球踢向自己擅長的那一側,該球員就有更高的概率可以得分。(當然,如果該球員將球踢向自己擅長的方向但是被對方守門員封堵。那麼他將球踢向自己不擅長的方向但是沒有被封堵的得分概率肯定會更高。否則的話,將球踢向自己擅長的方向將會變成一種單純的均衡策略而該球員每一次都會不假思索地這樣做。) 對於該球員而言,最佳的策略是:按照概率隨機地將球踢向自己不擅長的方向,即大多數情況下踢向自己擅長的方向,但是偶爾也會向自己不擅長的方向,與此同時,守門員也必須使用類似的應對手段,大多數情況下封堵該球員擅長的方向,少數情況下撲向另一個方向踢球方向/封堵方向的4種不同組合,我們就可以計算出罰球者有可能得分的確切概率。

前言

正文

當然也有更簡單的思考方式。

混合策略納什均衡的關鍵是:在均衡狀態下,每一種可選的出招都具有相同的收益。當該球員使用均衡策略時,不管他將球踢向哪一側,每一腳射門都有一定的的概率可以破門得分。如果他將球更多地踢向某個方向,守門員將會更多地撲向那個方向,從而降低該球員的破門成功率。這種收益相等的特性是一種直觀並且無須藉助於數學來思考均衡策略的方法。我們只要找到種概率,使得每一個可選項都具有相對的收益就行了。但是,所有球員都可以達到這種數學分析的程度嗎，很明顯不能。但是在平均了大量球員的數據之後,我們發現人類總是可以憑藉直覺找到最優化的混合策略。根據現實中罰點球所統計的概率,球員們普遍都能夠按照幾乎最正確的頻率將球踢向自己擅長的方向。

結語

本篇綜述了數學之中博弈論以及納什平衡在遊戲內的應用，相信讀者現在對於競技性遊戲的博弈設計有了一定的瞭解。本篇也只是較為複雜的分析了一下游戲內的幾樣設計，但遊戲競技仍然是複雜的，也是需要玩家理解遊戲才能在和其他人的博弈之間獲得勝利。今天關於這些複雜的數學分析我們瞭解一下就好了。

'博弈論和納什平衡是如何改變遊戲的？'

相關推薦