冰與火之歌：數據分析的前世今生（二）

大數據機器學習冰與火之歌投資人人都是產品經理 2017-06-11

2017年5月27日，浙江烏鎮，人機對弈。世界第一的柯潔在顫抖，他皺著眉，彷彿聽到眼前黑白子之間刀來劍往的殺伐之聲。俄而，他嘆口氣，撿兩枚旗子丟到棋盤上，認輸了。這個身穿黑衣的青年，狂傲不羈的天才，躬身站起，望了眼兵敗如山倒的棋局，似乎又有些釋然。沒有驚喜，沒有奇蹟，當圍棋上帝AlphaGo一騎絕塵時，他明白自己也走到十字路口上。

圍棋，是一個靠直覺而非計算的遊戲，而AlphaGo是在嘗試“用計算機擬合直覺”。具體說就是，通過深度神經網絡，模仿人類下圍棋這種直覺行為。而深度神經網絡這種算法的實現，則依賴於對海量數據的挖掘與分析，d也就是我們接下來要講的大數據分析。

大數據分析的優點

在講大數據前，讓我們回顧上一篇冰與火之歌：數據分析的前世今生（一）文末提到，基於統計學的數據分析有一些侷限性：

對數據的精確度要求很高
很難做到實時分析
無法回答數據蒐集時未考慮的問題

而大數據能近乎完美地解決上述問題，解決的原因，我們可以從大數據的三個特徵進行分析：

海量數據規模

舉個不太嚴謹的例子，假如我們要預測2017年北京高考數學平均分，方法是找出歷年北京高考數學平均分與試卷難易度的關係，再根據2017北京數學卷的難易度，算出平均分。

如果是統計學，因為無法處理海量的數據，則只能採用隨機採樣的原則，從每年的學生中隨機抽取100人作為樣本。假設有1個人的成績錄入出錯，則誤差為0.01。

如果是大數據，則將北京的6萬考生全部作為處理數據，假設有100個人成績錄入出錯，則誤差為0.002。

從上面這個例子可以看出，統計學由於數據量小，一顆耗子屎打亂一鍋粥。而大數據的數據規模如此龐大，所以允許數據有一定誤差。

動態數據體系

大數據的採集、存儲、處理都是實時進行的，所以能實時分析。而統計學的數據分析，則依賴於確定問題，再根據問題去搜集數據，數據的蒐集無法做到實時，分析自然也無法實時。有興趣的朋友可以看一下我的上一篇文章，這裡不再贅述。

多樣數據類型

從新澤西州的匯款詐騙說起

Xoom是一個專門從事跨境匯款業務的美國公司，它會分析一筆交易的所有相關數據。2011年，它注意到用“發現卡”從新澤西州匯款的交易量比正常情況多一些，於是啟動報警。Xoom公司的首席執行官約翰·孔John Kunze)解釋說:“這個系統關注的是不應該出現的情況。”單獨來看，每筆交易都是合法的，但是事實證明這是一個犯罪集團在試圖詐騙。而發現異常的唯一方法就是，重新檢查所有的數據，找出統計學分析法錯過的信息。

大數據強調蒐集所有的相關數據，所以能發現“未知的問題”。而傳統的統計學分析，則只能等到問題爆發，才能回溯尋找原因，繼而進行事後分析。孰優孰劣，自然一清二楚。

什麼是大數據分析？

定義：對規模較大的數據進行分析，通常使用一些算法結合海量數據來預測某些事情發生的可能性

初看定義，同學們可能會很失望，看似深奧的大數據分析竟然可以用這麼一句簡單的話來概括？然而，越是簡單的道理，實際操作起來往往越難。大數據分析，簡單可以分為以下4步：

收集

數據收集的核心：在於收集的最好是“全量”數據，至少是儘可能多維度的數據

（1）屁股坐姿與防盜系統——數據維度

很少有人會認為一個人的坐姿能表現什麼信息，但是日本先進工業技術研究所的教授越水重臣認為可以。當一個人坐著的時候，他的身形、姿勢和重量分佈都可以量化和數據化。越水重臣的團隊通過在汽車座椅下部安裝總共360個壓力傳感器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了數據，並且用0~256這個數值範圍對其進行量化，這樣就會產生獨屬於每個乘坐者的精確數據資料。

在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份，準確率高達98%。有了這個系統之後，汽車就能識別出駕駛者是不是車主；如果不是，系統就會要求司機輸入密碼；如果司機無法準確輸入密碼，汽車就會自動熄火。

如果僅僅只收集身形數據，或者只收集體重，系統都無法準確識別人的身份。大數據分析非常依賴數據的維度，數據的維度越多，數據量越大，大數據的價值也會倍增，可控分析的內容也會越多。

（2）數據分類

IDC早在2011年的調查報告中就提到，非結構化數據佔未來十年新生成數據的90%。所以，數據的收集，不單單是對結構化數據的收集，也包括非結構化數據。

存儲

以微信為代表的社交網絡，和以淘寶為首的電子商務，把人類社會帶入了一個以“PB”(1024TB)為單位的結構與非結構數據信息的新時代。

目前關係型數據庫在可縮放方面幾乎已經達到極限，無法處理如此量大、並且不規則的“非結構數據”的。而解決方案就是使用鍵值（Key-Value）存儲數據庫，這是一種 NoSQL（非關係型數據庫）模型，其數據按照鍵值對的形式進行組織、索引和存儲。KV存儲非常適合不涉及過多數據關係業務關係的業務數據，同時能有效減少讀寫磁盤的次數，比SQL數據庫存儲擁有更好的讀寫性能。

下圖是5種用於大數據處理的存儲數據庫：

處理

數據處理的技術可以使用雲計算，而處理數據的方法，便是利用算法結合數據預測某些事情發生的可能性。比如這兩年風頭正勁的今日頭條，就是一個經典例子。它為用戶推薦有價值的、個性化的信息，本質就是記錄你的閱讀內容、習慣、口味等，將這些數據標籤化，再利用協同過濾、基於內容推薦等推薦算法，就能推薦你想看的新聞了。

以大數據分析的一個分支，機器學習算法為例，整個流程如圖所示：

下面，我會最經典的樸素貝葉斯分類算法來給大家講解上面的流程。

1、問題建模

（1）對現實問題進行抽象

假設豆瓣的老大久聞你的大名，給你提了這樣一個需求：

這時，你會對需求進行分析，提取出以下兩個關鍵詞：

不同用戶：A喜歡的電影B可能不喜歡，所以我們的模型一定是基於用戶的
喜歡的電影：什麼叫喜歡？什麼叫討厭？所以，我們需要量化喜歡的標準，最直接的辦法就是用評分來做，5分代表非常喜歡，1分代表非常討厭。

根據上述分析，我們就可以看出問題的本質，即我們要實現的東西——一個基於用戶的電影評分系統。現在，我們來看看實現這個電影評分系統的兩種方案：

方案一：根據用戶之前評分高的電影，推薦相似的電影
方案二：A、B兩個用戶喜歡的電影很相似，可以給A推薦B喜歡的電影

第一種方法，就是基於內容的推薦算法；而第二種方法，就是基於用戶的協同過濾算法。假如我們採用第一種方案，問題就可以被轉化為下列表達：

計算電影內容之間的相似度，兩部電影越相似，它們的評分越可能相同

（2）選擇模型

樸素貝葉斯概述

眾所周知，樸素貝葉斯是一種簡單但是非常強大的線性分類器。它在垃圾郵件分類，疾病診斷中都取得了很大的成功。舉個例子，你在街上看到一個黑人，我問你你猜這哥們從哪來的，你十有八九猜非洲。為什麼呢？因為黑人中非洲人的比率最高，當然人家也可能是美洲人或亞洲人，但在沒有其它可用信息下，我們會選擇條件概率最大的類別，這就是樸素貝葉斯的思想基礎。（篇幅所限，這裡沒有講樸素貝葉斯的特徵獨立性以及數學原理，有興趣的朋友請自行百度）

能否適合電影評分系統？

樸素貝葉斯是一個線性分類器，那麼意味著它也能將電影進行分類：

2、準備數據

這個不難，豆瓣老大發了一份電影評分資料給你：

3、抽取特徵

假設我們選取三個特徵：地區、投資、風格，並對特徵進行數字化處理：

地區：美國 1 中國 2……
投資：0：0-1億，1：1-2億 2：>2億
風格：冒險 1 戰爭 2……

4、訓練模型

假設阿強對100部電影進行評分，我們選擇其中80部電影作為訓練樣本，以此訓練樸素貝葉斯模型，則對應下列流程圖的第二步與第三步

繼續以阿強為例，在他看過的80部電影中，評分為5分的電影有20部，則對應的P(5)=20/80=25%，同理可得：

在計算每個類別條件下各個特徵屬性劃分的頻率（由於P（x）對於所有類別來說是常數，所以只用計算分子）：

P（美國片|電影評分=5分）= P（所有5分電影中美國片的佔比）* P（5） ……

至此，模型訓練完畢，我們就可以用來預測阿強未看過的電影評分了。篇幅所限，如果對整個過程有興趣的同學請自行百度。

5、模型優化

我們可以看到，通過上面的模型只能得到整數型（5、4、3、2、1）的電影評分，所以可能出現下列兩種情況：

用戶對電影A的評分是3.6分，對電影B的評分是3.4分，但是利用樸素貝葉斯分類給出的電影評分電影A就是4分，電影B就是3分；
通過條件概率的計算，發現某電影評分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%，那麼根據樸素貝葉斯分類的原理，該電影的評分為5分，但實際該電影的評分很可能是1分

所以，從上面的那個例子可以說明，這是一種比較粗糙的分類方式，更適用於非A即B的分類方式，並不能準確地反應用戶對一部電影的喜好程度。所以，這裡就涉及到可以引入數據期望的方法，至於具體的優化方式，不再贅述。

應用

颶風與蛋撻的故事

沃爾瑪公司注意到，每當在季節性颶風來臨之前，不僅手電筒銷售量增加了，而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此，當季節性風暴來臨時，沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置，以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將數據分析的成果應用到他們的銷售策略中，而你們如果想要成為一名數據分析師，也應該不斷在實踐中去運用數據分析的成果，才能真正成長起來。

寫在最後

無論是傳統的統計學分析，還是時髦的大數據分析，它們的本質都是一脈相承的：對數據價值的挖掘與探索。只有在長期的實踐中不斷培養對數據的敏感性，不斷努力向前，你才能成為一名優秀的數據分析師/產品運營/產品經理。《冰與火之歌：數據分析的前世今生》系列就到這裡。

以下是這個系列文章的參考書目，可以一讀：

《大數據時代》
《深入淺出數據分析》
《金字塔原理》
《增長黑客》