'數據分析一定要知道的概率分佈知識'

機器學習不完美媽媽逃學博士 2019-09-15

Data Science （數據科學）作為現如今最炙手可熱的領域之一，越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此，打下良好的概率論基礎是必須的。

數據類型

‘巧婦難為無米之炊’，數據分析的‘主料’即為數據。當我們對一組數據作分析的時候，一定要明確的是，這組數據只是研究對象（population）中的一部分樣本（sample）。我們只是對一部分樣本進行分析，然後去推測出整個對象的規律。

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

那有人會問，既然這樣，為什麼不蒐集海量的數據呢？大部分的工作只是為了找到一個近似的規律，而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此，數據處理第一步，我們要試著去平衡數據量和處理的耗費（金錢與時間）。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

舉例說明：假如女人生孩子，生男孩概率是60%，生女孩概率是40%。那麼，伯努利分佈就是--- 生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

如上圖所示，如果生了4孩子且全是男孩，概率0.6的四次方 = 0.1296。當生了6個孩子的時候，有四個是男孩的概率達到了0.311。並且隨著孩子越來越多，幾乎不可能保證只生了4個男孩，其他都是女孩，畢竟單次生男孩的概率要大一些。

正態分佈（高斯分佈）

正態分佈是最最最重要的分佈之一，在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈，比如說收入分佈，身高分佈等等。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

舉個例子，比如說你去相親，而你最在意的標準是相親對象的身高，所以你對相親對象的身高做了統計，你會發現大部分人的身高會集中在一定的範圍呢，而只有很少的人會很高或者很矮。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

身高分佈

大部分的女生會集中在155到160 cm之間，這也很符合我們日常所見。

正態分佈的特點：

正態分佈左右對稱；
正態分佈曲線下的面積為1，也就是說正態分佈的所有情況出現的概率之和為1。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

身高分佈

大部分的女生會集中在155到160 cm之間，這也很符合我們日常所見。

正態分佈的特點：

正態分佈左右對稱；
正態分佈曲線下的面積為1，也就是說正態分佈的所有情況出現的概率之和為1。

正態分佈

正態分佈中，最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數，我們就可以知道正態分佈下每種情況出現的概率。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

身高分佈

大部分的女生會集中在155到160 cm之間，這也很符合我們日常所見。

正態分佈的特點：

正態分佈左右對稱；
正態分佈曲線下的面積為1，也就是說正態分佈的所有情況出現的概率之和為1。

正態分佈

正態分佈中，最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數，我們就可以知道正態分佈下每種情況出現的概率。

正態分佈

上面這張圖是什麼意思呢？具體來說就是，滿足正態分佈，68.27%的情況都會出現在平均值正負1個標準差以內。比如說，女生身高平均值是160 cm，標準差為5 cm。那麼，68.27%的女生的身高會在155 到 165 cm之間。95.45%的女生身高在150 （平均值減去2個標準差）到170 cm之間。

在機器學習領域，很多的機器學習模型也是遵循正態分佈的，比如說：

高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
線性判別分析（Linear Discriminant Analysis）
二次判別分析（Quadratic Discriminant Analysis）
基於最小二乘法的迴歸模型（Least Squares based regression models）

泊松分佈（Poisson Distribution）

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數，電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

身高分佈

大部分的女生會集中在155到160 cm之間，這也很符合我們日常所見。

正態分佈的特點：

正態分佈左右對稱；
正態分佈曲線下的面積為1，也就是說正態分佈的所有情況出現的概率之和為1。

正態分佈

正態分佈中，最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數，我們就可以知道正態分佈下每種情況出現的概率。

正態分佈

在機器學習領域，很多的機器學習模型也是遵循正態分佈的，比如說：

高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
線性判別分析（Linear Discriminant Analysis）
二次判別分析（Quadratic Discriminant Analysis）
基於最小二乘法的迴歸模型（Least Squares based regression models）

泊松分佈（Poisson Distribution）

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數，電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

泊松分佈

泊松分佈的計算公式如上。λ是單位時間（或單位面積）內隨機事件的平均發生率，比如說你預測一天平均有300人來醫院就診。而醫院醫生的滿負荷量是400人，那麼出現一天有400人就診的概率則滿足泊松分佈。

數據類型

首先，需要明確的是：數據分析中，數據量越多，樣本越大，結果越準確。

數據類型大體分為兩種：數值（如房價）和類別（如品牌，姓名等）。

而數值型數據可細分為離散（不連續）和連續數據。

圖1：概率分佈類型

概率分佈可以很好的展現數據的內在規律，圖1中就總結歸納了大部分的概率分佈類型。接下來，我們就簡單的理解一下這些概率分佈。

伯努利分佈（Bernoulli Distribution）

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢？單次實驗和兩種情況。

伯努利分佈代碼

伯努利分佈

關鍵詞：單次實驗，兩種情況分類

二項式分佈（Binomial Distribution）

基於前面介紹的伯努利分佈，可以衍生出二項式分佈：n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例：

生一次孩子，生男孩的概率為 p = 60%，而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子，其中男孩為 x 個，女孩為（n - x）的概率。

重點：

單次試驗重複多次；
單次試驗為伯努利分佈；
各次試驗相互獨立。也就是說每次生孩子，生男孩和生女孩概率不變，都是60%和40%。

二項式分佈公式

如果我們假定生了 n 個孩子，其中男孩是4個（固定值），那麼隨著n的變化，二項式分佈的概率圖會怎麼變呢？

二項式分佈代碼

二項式分佈圖

正態分佈（高斯分佈）

正態分佈

身高分佈

大部分的女生會集中在155到160 cm之間，這也很符合我們日常所見。

正態分佈的特點：

正態分佈左右對稱；
正態分佈曲線下的面積為1，也就是說正態分佈的所有情況出現的概率之和為1。

正態分佈

正態分佈中，最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數，我們就可以知道正態分佈下每種情況出現的概率。

正態分佈

在機器學習領域，很多的機器學習模型也是遵循正態分佈的，比如說：

高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
線性判別分析（Linear Discriminant Analysis）
二次判別分析（Quadratic Discriminant Analysis）
基於最小二乘法的迴歸模型（Least Squares based regression models）

泊松分佈（Poisson Distribution）

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數，電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

泊松分佈

知道泊松分佈有什麼用呢？根據單位時間內出現概率的大小可以做出決策。比如說，當你舉辦一次抽獎活動，你的設計是平均每天只有5（λ）個一等獎產生，那麼，就可以算出來一天產生了10個一等獎概率是多少？0.018132788707821854。

也就是說一天出現10次一等獎概率只為1.8%。可以放心了，不會超預算了！

總結

概率學在人類生活決策中隨處可見。很多人過著不滿意的生活，可能就是放棄了概率選擇權的原因。什麼概率選擇權呢？

比如說，有個富豪說給你兩種選擇：

直接給你500萬；
你可以抽獎，概率是50%機會拿到2000萬，而50%概率什麼也沒有；

那麼你會選擇什麼呢？

大部分人會選擇第一種。因為落袋為安，我可承受不起第二種什麼也沒抽到的情況，我會後悔死。

但是，我們從概率學來說，第一種的期望值是500萬（出現的情況 * 出現的概率之和： 500 * 100%），而第二種的期望值是（50% * 2000 + 50% * 0 = 1000萬）。第二種選擇的期望值明顯要高於第一種。這個比較抽象，和具體現實沒聯繫。

那麼，這種情況呢？

比如說：你在大公司年薪10萬，工作穩定。現在有一個創業公司過來挖你，給出的工資是5萬，但是有股票（股票只能上市之後兌現，價值5000萬）。但是創業都是九死一生，成功上市的概率可能只有1%。

這種情況你會如何選擇呢？如果可以，請留言告訴我你的答案，我們也好看看你是否也放棄了概率選擇權。

'數據分析一定要知道的概率分佈知識'

數據類型

數據類型

伯努利分佈（Bernoulli Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

泊松分佈（Poisson Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

泊松分佈（Poisson Distribution）

數據類型

伯努利分佈（Bernoulli Distribution）

二項式分佈（Binomial Distribution）

正態分佈（高斯分佈）

泊松分佈（Poisson Distribution）

總結

相關推薦