黑天鵝建模的正確姿勢

金融投資滬指數學歷史川總寫量化 2019-06-09

注：本文寫於 2016 年。

1 風險控制和尾部建模

2016 年全球金融市場不太平，從英國脫歐到 Trump 當選美國總統再到意大利公投，“黑天鵝”事件頻出，就連美聯儲也跟著添亂，嚷嚷了一年加息、故意擾亂市場對美國經濟數據的解讀。未來兩年，潛在的黑天鵝更是一個接一個。

在這種背景下，風險控制再次回到人們的視線中。在金融領域，風險控制的目的是為了計算極端黑天鵝事件對金融資產造成的潛在損失（負收益率）的可能性以及衝擊的大小。

先來看一個分佈。下圖為上證指數在過去 15 年內日收益率的分佈。我們計算出日收益率的均值和標準差，便可以得到一個基於該均值和標準差的正態分佈。下圖比較了收益率的直方圖和該正態分佈。

不難看出，上證指數日收益率的分佈表現出明顯的尖峰和肥尾特點，尤其是在負收益率部分。比較日收益率分佈和標準正態分佈的分位圖（下圖），也可以清晰地驗證這個結論。肥尾意味著上證指數實際發生極端收益率（從上圖來看，尤其是極端跌幅）的概率要遠遠大於正態分佈對應的概率。換句話說，如果算出收益率的均值和標準差，然後構建一個正態分佈來近似描述日收益率分佈，這會造成很大的誤差。

除了尖峰、肥尾的特點之外，另一個困擾“黑天鵝建模”的問題是，發生極端虧損（真正的黑天鵝）的歷史樣本太少了。比如說，我們想回答“上證指數每十年一遇的日收益率最大跌幅是多少”這個問題，回看上證指數過去 20 幾年的歷史，我們僅僅有可憐的 2 個樣本點，根本無法根據它們構建有效的模型。

那麼應該怎麼辦呢？在統計學上，廣義極值分佈（Generalized Extreme Value Distribution）可以用來對極端虧損建模。

2 極值建模

假設隨機變量 X_i 代表某投資品的負收益率（虧損），它滿足某未知分佈 F(x) = Pr(X_i ≤ x)。在下文中，我們用負收益率的絕對值代表虧損的大小（即 X_i 的取值為正數）。在這種描述下，當 X_i 的取值在其分佈的右尾（right tail）時，便意味著該投資品發生了極端的虧損。

假設不同時間的虧損 X_i 是獨立同分布的，並令 M_n = max(X_1, …, X_n)，即 M_n 是 n 個樣本中最壞的情況。廣義極限分佈理論解決的問題就是對 M_n 分佈的建模。有了 M_n 的分佈，我們就可以輕鬆的回答上面諸如“上證指數每十年一遇的日收益率最大跌幅是多少”的問題。

根據獨立同分布的假設，我們可以寫出 M_n 的 CDF 為：

由於分佈 F 是未知的，F^n 自然也是未知的，而經驗分佈函數對與 F^n 的估計也是非常差的。但是，我們可以根據 Fisher-Tippet 理論（Fisher and Tippett 1928）來漸進逼近 F^n，並以此得到 M_n 的分佈。特別的，Fisher-Tippet 理論證明，將 M_n 標準化後，即 Z_n = (M_n – μ_n) / σ_n，Z_n 的分佈收斂於形式如下的廣義極限分佈：

因此，只要我們有足夠多的原始負收益率樣本數據 X_i，我們可以用下式求出極端虧損 M_n 的分佈：

在實際使用中，廣義極限分佈 H 的參數（ξ, μ, σ）可以通過極大似然估計（maximum likelihood estimation）得到。為了估計這些參數，我們必須有足夠多個 M_n 的樣本。為此，我們可以將總長為 T 期的歷史數據等分成單位長度為 n 的 m 個區間。每個區間中的最大虧損便是 M_n 的一個樣本。這樣我們就可以得到 m 個樣本。這樣，便可以根據這些樣本得到廣義極限分佈 H 的參數的估計。Embrechts et. al. (1997) 給出了詳細的數學推導。

3 閾值外數據建模

在風險管理中，在險價值（Value at Risk）是人們常說的一個概念。比如，當我們說 1% 的日收益率的 VaR = 6.8%，它的意思是，我們的目標投資品（或者投資組合）在當天有 1% 的概率可能產生超過 6.8% 的虧損。在給定的概率下，VaR 越大，投資品的風險越大。

然而，如果想計算 VaR 的大小，上一節中對極值分佈的模型並無法發揮作用。這是因為在計算 VaR 時，我們必須對虧損分佈的右尾進行建模、而不單單是關注某一個極值（注意，在本文中我們用虧損的絕對值來描述虧損的大小，因此虧損都是正數，所以這裡我們是對分佈的右尾建模）。為此，我們可以採用廣義帕累託分佈（Generalized Pareto Distribution）。

和上節一樣，X_i 表示某投資品的一系列虧損，並假設它們獨立且滿足某未知分佈 F。同樣的，定義 M_n = max(X_1, …, X_n)。假設 u 為某一個給定的虧損閾值。在所有這些 X_i 中，我們感興趣的是那些大於 u 的樣本，即那些虧損超過閾值的樣本點，我們希望用它們來對 X_i 分佈的右尾進行建模。超過給定閾值的虧損部分，即 X_i – u ＞ 0 的部分，可以由如下條件概率表示：

Embrechts et. al. (1997) 證明，如果虧損 X_i 的極值 M_n 收斂於上節介紹的廣義極限分佈 H，那麼存在一個 u 的函數 β(u)，使得 X_i – u 滿足如下形式的廣義帕累託分佈 G：

在實際應用中，如果我們想對 X_i 的右尾建模，只需確定閾值 u。然後在 X_i 的所有樣本中找出所有大於 u 的樣本（注：我們用 X_i 的絕對值表示虧損的大小，所以虧損在上述數學表達式中是正數），將這些滿足的樣本各自減去 u 後得到超過 u 的部分，然後用這些數據擬合廣義帕累託分佈 G，G 的參數由極大似然估計得到。

廣義帕累託分佈 G 的形狀隨著形狀參數 ξ 的不同而不同。特別的，當 ξ = 0 時，G 就化簡為指數分佈。我們以過去 15 年上證指數日頻的負收益率樣本為例，取閾值 u = 2.65%（即考察日收益率虧損超過 2.65% 的尾部分佈），得到了 G 的參數。其中形狀參數的取值非常接近 0。下圖為擬合得到帕累託分佈和同比例的指數分佈對比超額虧損的直方圖的結果。可以看到紅色的帕累託分佈和綠色的指數分佈非常接近。

此外，我們也可以用超額虧損和標準的指數分佈放在一起做分位圖，得到的結果如下。結果顯示分位圖近似的滿足線性，說明超額虧損的分佈和指數分佈十分接近。

利用超額虧損對尾部分佈建模後，我們便可以方便的求解在險價值。

4 在險價值

上一節曾經說過，在險價值描繪的是投資品在某一個指定的概率下虧損程度的閾值。在我們的定義下（即我們用正數來代表虧損的大小），在險價值就是某一給定概率下虧損 X_i 分佈中右尾的某一個分位數。換句話說，只要根據給定的概率求出分位數，它的值就是這個概率對應的在險價值。

因此，通過廣義帕累託分佈 G，我們便可以簡單的推導出在險價值的公式。假設 1 – q 代表我們考慮的概率（比如我們想知道 5% 的概率對應的虧損，那麼 1 - q = 0.05），則其對應的在險價值為：

其中，n 是虧損樣本的總個數，k 是超過 u 的虧損樣本的個數。u 是對應的閾值，它可以由 q = F(u) 求出。在應用中，(n-k)/n 可以作為對 F(u) 的估計。因此，對於給定的概率 1 – q，計算在險價值的步驟為：

根據 q 和 q = (n-k)/n 求出 k；
根據 k 求出 u，即在所有虧損的樣本中，找到對應的閾值 u，使得滿足 X_i 大於 u 的個數為 k；
用上一步找到的 X_i – u 建模，得到廣義帕累託分佈；
將參數帶入在險價值的公式中，求出在險價值。

由於在險價值關注的往往是 5% 甚至 1% 的虧損閾值，它們對應的是虧損分佈中非常靠尾部的那些樣本，因此只有當 n 足夠大時，我們才可能得到足夠多的超額虧損來建模。可惜的是，在這方面中國 A 股的年份太短了。

即便如此，我們仍然通過下面簡單的實驗來說明如何計算在險價值。這裡我們考慮標普 500 指數（從 1930 年至今）和上證指數（從 2000 年至今）。此外，為了增加樣本個數，我們考慮的在險價值對應的概率為 10%，而非極端的 5% 或者 1%。

對於標普 500，我們用每 15 年的數據來滾動建模，得到日收益率在 10% 概率下的在險價值。作為比較，我們用日收益率均值和標準差對應的正態分佈同樣求出 10% 概率下的在險價值。結果如下圖所示。

上圖說明以下幾點：

由於收益率存在明顯的肥尾效應，正態分佈嚴重低估了在險價值（綠線持續的在紅線之下）；
在 1929 年股災之後的有一段時間，在險價值都在高位，這是因為計算的樣本中有大量的高虧損樣本；
進入 21 世紀以來，在險價值有兩次明顯的躍升，分別對應著 2000年的 .com 泡沫和 2008 年的次貸危機。

同樣的，我們對上證指數建模。由於數據年份太短，我們用每 10 年的數據來滾動建模。結果如下所示。同樣的，正態分佈建模嚴重低估了在險價值。此外，由於上證指數比標普 500 有更加明顯的肥尾，因此正態分佈對潛在虧損的低估更加顯著。此外，2010 年到 2015 年股災之前，10% 概率對應的日收益率在險價值並無太大波動；股災之後，在險價值明顯上升。

我們可以用更短的時間（即更少的樣本）對上證指數進行滾動建模。但是樣本少一定會帶來建模的誤差。下圖為我們使用 5 年窗口進行滾動建模的結果。結果表明從 2008 年股災開始後一直到 2014 年，上證指數的風險都非常大（注意，正態分佈建模無法很好的描述在險價值的變化，且存在嚴重的低估）。在最近兩年，隨著 2015 年股災和 2016 年 1 月份熔斷引發的二次災害，在險價值出現了兩次迅速的躥升。

5 結語

做投資時，如何強調風險控制都不過分。然而，做好風控的前提就是能用正確的數學手段對其量化。為了控制風險，有人刻意限制倉位，有人“把雞蛋放在不同的籃子裡”。然而分散投資不完全等價於分散風險。“把雞蛋放在不同的籃子裡”不如“把雞蛋放在一個籃子裡，然後看好這個籃子”。從這個意義上說，對虧損的正確建模格外重要。

參考文獻

Embrechts, P. C. Kloppelberg, and T. Mikosch (1997). Modelling Extremal Events.Springer-Verlag, Berlin.
Fisher, R. and L. Tippett (1928). Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proceedings of the Cambridge Philosophical Society 24, 180-190.