'數據分析一定要知道的概率分佈知識'

機器學習 不完美媽媽 逃學博士 2019-09-15
"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

數據分析一定要知道的概率分佈知識

身高分佈

大部分的女生會集中在155到160 cm之間,這也很符合我們日常所見。

正態分佈的特點

  • 正態分佈左右對稱;
  • 正態分佈曲線下的面積為1,也就是說正態分佈的所有情況出現的概率之和為1。
"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

數據分析一定要知道的概率分佈知識

身高分佈

大部分的女生會集中在155到160 cm之間,這也很符合我們日常所見。

正態分佈的特點

  • 正態分佈左右對稱;
  • 正態分佈曲線下的面積為1,也就是說正態分佈的所有情況出現的概率之和為1。
數據分析一定要知道的概率分佈知識

正態分佈

正態分佈中,最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數,我們就可以知道正態分佈下每種情況出現的概率。

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

數據分析一定要知道的概率分佈知識

身高分佈

大部分的女生會集中在155到160 cm之間,這也很符合我們日常所見。

正態分佈的特點

  • 正態分佈左右對稱;
  • 正態分佈曲線下的面積為1,也就是說正態分佈的所有情況出現的概率之和為1。
數據分析一定要知道的概率分佈知識

正態分佈

正態分佈中,最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數,我們就可以知道正態分佈下每種情況出現的概率。

數據分析一定要知道的概率分佈知識

正態分佈

上面這張圖是什麼意思呢?具體來說就是,滿足正態分佈,68.27%的情況都會出現在平均值正負1個標準差以內。比如說,女生身高平均值是160 cm, 標準差為5 cm。那麼,68.27%的女生的身高會在155 到 165 cm之間。95.45%的女生身高在150 (平均值減去2個標準差)到170 cm之間。

在機器學習領域,很多的機器學習模型也是遵循正態分佈的,比如說:

  • 高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
  • 線性判別分析(Linear Discriminant Analysis)
  • 二次判別分析(Quadratic Discriminant Analysis)
  • 基於最小二乘法的迴歸模型(Least Squares based regression models)

泊松分佈(Poisson Distribution)

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

數據分析一定要知道的概率分佈知識

身高分佈

大部分的女生會集中在155到160 cm之間,這也很符合我們日常所見。

正態分佈的特點

  • 正態分佈左右對稱;
  • 正態分佈曲線下的面積為1,也就是說正態分佈的所有情況出現的概率之和為1。
數據分析一定要知道的概率分佈知識

正態分佈

正態分佈中,最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數,我們就可以知道正態分佈下每種情況出現的概率。

數據分析一定要知道的概率分佈知識

正態分佈

上面這張圖是什麼意思呢?具體來說就是,滿足正態分佈,68.27%的情況都會出現在平均值正負1個標準差以內。比如說,女生身高平均值是160 cm, 標準差為5 cm。那麼,68.27%的女生的身高會在155 到 165 cm之間。95.45%的女生身高在150 (平均值減去2個標準差)到170 cm之間。

在機器學習領域,很多的機器學習模型也是遵循正態分佈的,比如說:

  • 高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
  • 線性判別分析(Linear Discriminant Analysis)
  • 二次判別分析(Quadratic Discriminant Analysis)
  • 基於最小二乘法的迴歸模型(Least Squares based regression models)

泊松分佈(Poisson Distribution)

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

數據分析一定要知道的概率分佈知識

泊松分佈

泊松分佈的計算公式如上。λ是單位時間(或單位面積)內隨機事件的平均發生率,比如說你預測一天平均有300人來醫院就診。而醫院醫生的滿負荷量是400人,那麼出現一天有400人就診的概率則滿足泊松分佈。

"

Data Science (數據科學)作為現如今最炙手可熱的領域之一,越來越受到人們的關注。而數據分析背後充滿了概率統計的知識。因此,打下良好的概率論基礎是必須的。

數據分析一定要知道的概率分佈知識

數據類型

‘巧婦難為無米之炊’,數據分析的‘主料’即為數據。當我們對一組數據作分析的時候,一定要明確的是,這組數據只是研究對象(population)中的一部分樣本(sample)。我們只是對一部分樣本進行分析,然後去推測出整個對象的規律。

首先,需要明確的是:數據分析中,數據量越多,樣本越大,結果越準確

那有人會問,既然這樣,為什麼不蒐集海量的數據呢?大部分的工作只是為了找到一個近似的規律,而且過大的數據量會帶來收集費用的飆升、處理難度和時間的增加。因此,數據處理第一步,我們要試著去平衡數據量和處理的耗費(金錢與時間)。

數據類型大體分為兩種:數值(如房價)和類別(如品牌,姓名等)。

而數值型數據可細分為離散(不連續)連續數據

數據分析一定要知道的概率分佈知識

圖1: 概率分佈類型

概率分佈可以很好的展現數據的內在規律,圖1中就總結歸納了大部分的概率分佈類型。接下來,我們就簡單的理解一下這些概率分佈。

伯努利分佈(Bernoulli Distribution)

伯努利分佈是概率分佈中最簡單、最基本也是最基礎的分佈形式之一。我們從圖1可以看到很多複雜的概率分佈都是基於伯努利分佈。

怎麼理解伯努利分佈呢?單次實驗兩種情況

數據分析一定要知道的概率分佈知識

伯努利分佈代碼

數據分析一定要知道的概率分佈知識

伯努利分佈

舉例說明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那麼,伯努利分佈就是--- 生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。如上圖所示。

關鍵詞:單次實驗,兩種情況分類

二項式分佈(Binomial Distribution)

基於前面介紹的伯努利分佈,可以衍生出二項式分佈:n重伯努利試驗「成功」次數的離散概率分佈。繼續以生孩子為例:

生一次孩子,生男孩的概率為 p = 60%, 而生女孩的概率為 1 - p = 40%。

假如生了 n 個孩子,其中男孩為 x 個,女孩為(n - x)的概率。

重點:

  • 單次試驗重複多次;
  • 單次試驗為伯努利分佈;
  • 各次試驗相互獨立。也就是說每次生孩子,生男孩和生女孩概率不變,都是60%和40%。
數據分析一定要知道的概率分佈知識

二項式分佈公式

如果我們假定生了 n 個孩子,其中男孩是4個(固定值),那麼隨著n的變化,二項式分佈的概率圖會怎麼變呢?

數據分析一定要知道的概率分佈知識

二項式分佈代碼

數據分析一定要知道的概率分佈知識

二項式分佈圖

如上圖所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 當生了6個孩子的時候,有四個是男孩的概率達到了0.311。並且隨著孩子越來越多,幾乎不可能保證只生了4個男孩,其他都是女孩,畢竟單次生男孩的概率要大一些

正態分佈(高斯分佈)

正態分佈是最最最重要的分佈之一,在數據分析領域也是最常見的分佈之一。我們生活中很多常見現象都遵循正態分佈,比如說收入分佈,身高分佈等等。

數據分析一定要知道的概率分佈知識

正態分佈

舉個例子,比如說你去相親,而你最在意的標準是相親對象的身高,所以你對相親對象的身高做了統計,你會發現大部分人的身高會集中在一定的範圍呢,而只有很少的人會很高或者很矮。

數據分析一定要知道的概率分佈知識

身高分佈

大部分的女生會集中在155到160 cm之間,這也很符合我們日常所見。

正態分佈的特點

  • 正態分佈左右對稱;
  • 正態分佈曲線下的面積為1,也就是說正態分佈的所有情況出現的概率之和為1。
數據分析一定要知道的概率分佈知識

正態分佈

正態分佈中,最重要的兩個參數是 平均值 μ 和標準差 σ。也就是說如果告訴我們這兩個參數,我們就可以知道正態分佈下每種情況出現的概率。

數據分析一定要知道的概率分佈知識

正態分佈

上面這張圖是什麼意思呢?具體來說就是,滿足正態分佈,68.27%的情況都會出現在平均值正負1個標準差以內。比如說,女生身高平均值是160 cm, 標準差為5 cm。那麼,68.27%的女生的身高會在155 到 165 cm之間。95.45%的女生身高在150 (平均值減去2個標準差)到170 cm之間。

在機器學習領域,很多的機器學習模型也是遵循正態分佈的,比如說:

  • 高斯樸素貝葉斯分類器 (Gaussian Naive Bayes Classifier)
  • 線性判別分析(Linear Discriminant Analysis)
  • 二次判別分析(Quadratic Discriminant Analysis)
  • 基於最小二乘法的迴歸模型(Least Squares based regression models)

泊松分佈(Poisson Distribution)

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、激光的光子數分佈等等。 --------------維基百科

數據分析一定要知道的概率分佈知識

泊松分佈

泊松分佈的計算公式如上。λ是單位時間(或單位面積)內隨機事件的平均發生率,比如說你預測一天平均有300人來醫院就診。而醫院醫生的滿負荷量是400人,那麼出現一天有400人就診的概率則滿足泊松分佈。

數據分析一定要知道的概率分佈知識

泊松分佈

知道泊松分佈有什麼用呢?根據單位時間內出現概率的大小可以做出決策。比如說,當你舉辦一次抽獎活動,你的設計是平均每天只有5(λ)個一等獎產生,那麼,就可以算出來一天產生了10個一等獎概率是多少?0.018132788707821854。

也就是說一天出現10次一等獎概率只為1.8%。 可以放心了,不會超預算了!

總結

概率學在人類生活決策中隨處可見。很多人過著不滿意的生活,可能就是放棄了概率選擇權的原因。什麼概率選擇權呢?

比如說,有個富豪說給你兩種選擇:

  1. 直接給你500萬;
  2. 你可以抽獎,概率是50%機會拿到2000萬,而50%概率什麼也沒有;

那麼你會選擇什麼呢?

大部分人會選擇第一種。因為落袋為安,我可承受不起第二種什麼也沒抽到的情況,我會後悔死。

但是,我們從概率學來說,第一種的期望值是500萬 (出現的情況 * 出現的概率 之和: 500 * 100%),而第二種的期望值是(50% * 2000 + 50% * 0 = 1000萬)。第二種選擇的期望值明顯要高於第一種。這個比較抽象,和具體現實沒聯繫。

那麼,這種情況呢?

比如說:你在大公司年薪10萬,工作穩定。現在有一個創業公司過來挖你,給出的工資是5萬,但是有股票(股票只能上市之後兌現,價值5000萬)。但是創業都是九死一生,成功上市的概率可能只有1%。

這種情況你會如何選擇呢?如果可以,請留言告訴我你的答案,我們也好看看你是否也放棄了概率選擇權。

"

相關推薦

推薦中...