數據產品經理必修課(43):數據挖掘之貝葉斯(下)

數據挖掘 產品經理 機器學習 命理 小鑫芝士 2017-04-07

數據產品經理必修課(43):數據挖掘之貝葉斯(下)

上回我們說到了耳朵、眉毛、眼睛等器官是雙份的情況,在計算的過程中我們有兩種做法,一種是把他們當做一個整體來看,所以面相上就只有5個特徵;另外一種方式是把他們當做不同的東西來看,這樣面相上就有了8個特徵。這兩種方法各有千秋又各自存在問題。對於第一種方法,把他們當做一個整體來看,一旦出現其中一對性狀其中只有一個出現了我們需要的特徵,我們到底是算出現還是算沒有出現,或者是算出現了0.5個?對於第二種方案,計算成8個特徵看似可以解決剛才說的問題了,但是要知道我們接下來的工作是要將這些特徵算出來的比例相乘起來,要知道相乘的前提是相互獨立,但是現在看來左眼和右眼恐怕是很難獨立了,兩者的性狀影響是如此的相同和對稱,即便出現個別人左眼與右眼性狀不同,那也是極少數,畢竟左右眼是關聯的,因而就不能運用相乘特性了。

為了解釋清楚這個問題,我們不妨將壞人中出現這個面相的比例進行拆解。總共可以分為以下兩個過程:

  • 過程1:壞人中出現這種面相比率 = 壞人中出現這種眉毛比率(2只)*壞人中出現這種眼睛比率(2只)*壞人中出現這種耳朵比率(2只)*壞人中出現這種鼻子比率*壞人中出現這種口比率

  • 過程2:壞人中出現這種眼睛的比率=壞人中所有這種眼睛數目/壞人中的眼睛數目

對於過程2則是對過程1中的一些特性的展開計算(如眼睛、眉毛、耳朵等)。針對剛才我們說的集中解決方法,科學家們也有自己的考量,並且相較不下;當然,有爭執就有折中,於是也有人會從中撮合,使得解法大家都可以接受。下面就介紹這三種具體的計算類別。

  • 類別1:對於過程1、2中的雙份特徵,都計算2次。這會造成特徵間獨立性缺失而引起失誤。學者們稱這一派叫做“多項式模型”。

  • 類別2:對於過程1、2中的雙份特徵,都計算1次。這雖然滿足了特徵獨立性,但是在過程2中使得這個比例變得不再精確,因為一旦成雙成對的器官中僅有一個滿足特性,另一個就也要被計算進來。學者們稱這一派叫做“伯努利模型”。

  • 類別3:對於過程1中的雙份特徵計算1次,對於過程2中的雙份特徵計算2次,這樣就解決了上述兩個類別的問題,學者們稱之為“混合模型”。

新的解決方式只能對過去產生修補,並不會涵蓋所有新的情況,現在假設出現了獨眼龍、一隻耳、沒有眉毛等畸形情況的人怎麼辦?也就是他們影響了過程2的分母了,而不僅僅是影響我們討論的分子。在這種情況下,我們只需要對分母做一些稍稍的修正即可,即把分母放寬稱為所有器官的數目(包括單隻的,或者成對的)即可,其餘的計算並不改變。

到這裡我們已經大致瞭解了計算一個面相是好是壞的方法了,我們的方法是先知道大環境中好人壞人的概率分別是多少,然後再結合信息(即好人壞人中這種面相的比重)來進一步比較是好是壞的概率孰大孰小?進而做出判斷。這就是貝葉斯,一個依靠信息修正認識的方法。

相關推薦

推薦中...