冰與火之歌:數據分析的前世今生(二)

大數據 機器學習 冰與火之歌 投資 人人都是產品經理 2017-06-11
冰與火之歌:數據分析的前世今生(二)

2017年5月27日,浙江烏鎮,人機對弈。世界第一的柯潔在顫抖,他皺著眉,彷彿聽到眼前黑白子之間刀來劍往的殺伐之聲。俄而,他嘆口氣,撿兩枚旗子丟到棋盤上,認輸了。這個身穿黑衣的青年,狂傲不羈的天才,躬身站起,望了眼兵敗如山倒的棋局,似乎又有些釋然。沒有驚喜,沒有奇蹟,當圍棋上帝AlphaGo一騎絕塵時,他明白自己也走到十字路口上。

圍棋,是一個靠直覺而非計算的遊戲,而AlphaGo是在嘗試“用計算機擬合直覺”。具體說就是,通過深度神經網絡,模仿人類下圍棋這種直覺行為。而深度神經網絡這種算法的實現,則依賴於對海量數據的挖掘與分析,d也就是我們接下來要講的大數據分析。

大數據分析的優點

在講大數據前,讓我們回顧上一篇冰與火之歌:數據分析的前世今生(一)文末提到,基於統計學的數據分析有一些侷限性:

  • 對數據的精確度要求很高
  • 很難做到實時分析
  • 無法回答數據蒐集時未考慮的問題

而大數據能近乎完美地解決上述問題,解決的原因,我們可以從大數據的三個特徵進行分析:

冰與火之歌:數據分析的前世今生(二)

海量數據規模

舉個不太嚴謹的例子,假如我們要預測2017年北京高考數學平均分,方法是找出歷年北京高考數學平均分與試卷難易度的關係,再根據2017北京數學卷的難易度,算出平均分。

冰與火之歌:數據分析的前世今生(二)

如果是統計學,因為無法處理海量的數據,則只能採用隨機採樣的原則,從每年的學生中隨機抽取100人作為樣本。假設有1個人的成績錄入出錯,則誤差為0.01。

如果是大數據,則將北京的6萬考生全部作為處理數據,假設有100個人成績錄入出錯,則誤差為0.002。

從上面這個例子可以看出,統計學由於數據量小,一顆耗子屎打亂一鍋粥。而大數據的數據規模如此龐大,所以允許數據有一定誤差。

動態數據體系

大數據的採集、存儲、處理都是實時進行的,所以能實時分析。而統計學的數據分析,則依賴於確定問題,再根據問題去搜集數據,數據的蒐集無法做到實時,分析自然也無法實時。有興趣的朋友可以看一下我的上一篇文章,這裡不再贅述。

多樣數據類型

從新澤西州的匯款詐騙說起

Xoom是一個專門從事跨境匯款業務的美國公司,它會分析一筆交易的所有相關數據。2011年,它注意到用“發現卡”從新澤西州匯款的交易量比正常情況多一些,於是啟動報警。Xoom公司的首席執行官約翰·孔John Kunze)解釋說:“這個系統關注的是不應該出現的情況。”單獨來看,每筆交易都是合法的,但是事實證明這是一個犯罪集團在試圖詐騙。而發現異常的唯一方法就是,重新檢查所有的數據,找出統計學分析法錯過的信息。

冰與火之歌:數據分析的前世今生(二)

大數據強調蒐集所有的相關數據,所以能發現“未知的問題”。而傳統的統計學分析,則只能等到問題爆發,才能回溯尋找原因,繼而進行事後分析。孰優孰劣,自然一清二楚。

什麼是大數據分析?

定義:對規模較大的數據進行分析,通常使用一些算法結合海量數據來預測某些事情發生的可能性

初看定義,同學們可能會很失望,看似深奧的大數據分析竟然可以用這麼一句簡單的話來概括?然而,越是簡單的道理,實際操作起來往往越難。大數據分析,簡單可以分為以下4步:

冰與火之歌:數據分析的前世今生(二)

收集

數據收集的核心:在於收集的最好是“全量”數據,至少是儘可能多維度的數據

(1)屁股坐姿與防盜系統——數據維度

很少有人會認為一個人的坐姿能表現什麼信息,但是日本先進工業技術研究所的教授越水重臣認為可以。當一個人坐著的時候,他的身形、姿勢和重量分佈都可以量化和數據化。越水重臣的團隊通過在汽車座椅下部安裝總共360個壓力傳感器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了數據,並且用0~256這個數值範圍對其進行量化,這樣就會產生獨屬於每個乘坐者的精確數據資料。

在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份,準確率高達98%。有了這個系統之後,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求司機輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。

如果僅僅只收集身形數據,或者只收集體重,系統都無法準確識別人的身份。大數據分析非常依賴數據的維度,數據的維度越多,數據量越大,大數據的價值也會倍增,可控分析的內容也會越多。

(2)數據分類

IDC早在2011年的調查報告中就提到,非結構化數據佔未來十年新生成數據的90%。所以,數據的收集,不單單是對結構化數據的收集,也包括非結構化數據。

冰與火之歌:數據分析的前世今生(二)

存儲

以微信為代表的社交網絡,和以淘寶為首的電子商務,把人類社會帶入了一個以“PB”(1024TB)為單位的結構與非結構數據信息的新時代。

目前關係型數據庫在可縮放方面幾乎已經達到極限,無法處理如此量大、並且不規則的“非結構數據”的。而解決方案就是使用鍵值(Key-Value)存儲數據庫,這是一種 NoSQL(非關係型數據庫)模型,其數據按照鍵值對的形式進行組織、索引和存儲。KV存儲非常適合不涉及過多數據關係業務關係的業務數據,同時能有效減少讀寫磁盤的次數,比SQL數據庫存儲擁有更好的讀寫性能。

下圖是5種用於大數據處理的存儲數據庫:

冰與火之歌:數據分析的前世今生(二)

處理

數據處理的技術可以使用雲計算,而處理數據的方法,便是利用算法結合數據預測某些事情發生的可能性。比如這兩年風頭正勁的今日頭條,就是一個經典例子。它為用戶推薦有價值的、個性化的信息,本質就是記錄你的閱讀內容、習慣、口味等,將這些數據標籤化,再利用協同過濾、基於內容推薦等推薦算法,就能推薦你想看的新聞了。

以大數據分析的一個分支,機器學習算法為例,整個流程如圖所示:

冰與火之歌:數據分析的前世今生(二)

下面,我會最經典的樸素貝葉斯分類算法來給大家講解上面的流程。

1、問題建模

(1)對現實問題進行抽象

假設豆瓣的老大久聞你的大名,給你提了這樣一個需求:

這時,你會對需求進行分析,提取出以下兩個關鍵詞:

  • 不同用戶:A喜歡的電影B可能不喜歡,所以我們的模型一定是基於用戶的
  • 喜歡的電影:什麼叫喜歡?什麼叫討厭?所以,我們需要量化喜歡的標準,最直接的辦法就是用評分來做,5分代表非常喜歡,1分代表非常討厭。

根據上述分析,我們就可以看出問題的本質,即我們要實現的東西——一個基於用戶的電影評分系統。現在,我們來看看實現這個電影評分系統的兩種方案:

  • 方案一:根據用戶之前評分高的電影,推薦相似的電影
  • 方案二:A、B兩個用戶喜歡的電影很相似,可以給A推薦B喜歡的電影

第一種方法,就是基於內容的推薦算法;而第二種方法,就是基於用戶的協同過濾算法。假如我們採用第一種方案,問題就可以被轉化為下列表達:

  • 計算電影內容之間的相似度,兩部電影越相似,它們的評分越可能相同

(2)選擇模型

樸素貝葉斯概述

眾所周知,樸素貝葉斯是一種簡單但是非常強大的線性分類器。它在垃圾郵件分類,疾病診斷中都取得了很大的成功。舉個例子,你在街上看到一個黑人,我問你你猜這哥們從哪來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。(篇幅所限,這裡沒有講樸素貝葉斯的特徵獨立性以及數學原理,有興趣的朋友請自行百度)

能否適合電影評分系統?

樸素貝葉斯是一個線性分類器,那麼意味著它也能將電影進行分類:

2、準備數據

這個不難,豆瓣老大發了一份電影評分資料給你:

冰與火之歌:數據分析的前世今生(二)冰與火之歌:數據分析的前世今生(二)

3、抽取特徵

假設我們選取三個特徵:地區、投資、風格,並對特徵進行數字化處理:

  • 地區:美國 1 中國 2……
  • 投資:0:0-1億 ,1:1-2億 2:>2億
  • 風格:冒險 1 戰爭 2……

4、訓練模型

假設阿強對100部電影進行評分,我們選擇其中80部電影作為訓練樣本,以此訓練樸素貝葉斯模型,則對應下列流程圖的第二步與第三步

冰與火之歌:數據分析的前世今生(二)

繼續以阿強為例,在他看過的80部電影中,評分為5分的電影有20部,則對應的P(5)=20/80=25%,同理可得:

冰與火之歌:數據分析的前世今生(二)

在計算每個類別條件下各個特徵屬性劃分的頻率(由於P(x)對於所有類別來說是常數,所以只用計算分子):

P(美國片|電影評分=5分)= P(所有5分電影中美國片的佔比)* P(5) ……

至此,模型訓練完畢,我們就可以用來預測阿強未看過的電影評分了。篇幅所限,如果對整個過程有興趣的同學請自行百度。

5、模型優化

我們可以看到,通過上面的模型只能得到整數型(5、4、3、2、1)的電影評分,所以可能出現下列兩種情況:

  • 用戶對電影A的評分是3.6分,對電影B的評分是3.4分,但是利用樸素貝葉斯分類給出的電影評分電影A就是4分,電影B就是3分;
  • 通過條件概率的計算,發現某電影評分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%,那麼根據樸素貝葉斯分類的原理,該電影的評分為5分,但實際該電影的評分很可能是1分

所以,從上面的那個例子可以說明,這是一種比較粗糙的分類方式,更適用於非A即B的分類方式,並不能準確地反應用戶對一部電影的喜好程度。所以,這裡就涉及到可以引入數據期望的方法,至於具體的優化方式,不再贅述。

應用

颶風與蛋撻的故事

沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將數據分析的成果應用到他們的銷售策略中,而你們如果想要成為一名數據分析師,也應該不斷在實踐中去運用數據分析的成果,才能真正成長起來。

寫在最後

無論是傳統的統計學分析,還是時髦的大數據分析,它們的本質都是一脈相承的:對數據價值的挖掘與探索。只有在長期的實踐中不斷培養對數據的敏感性,不斷努力向前,你才能成為一名優秀的數據分析師/產品運營/產品經理。《冰與火之歌:數據分析的前世今生》系列就到這裡。

以下是這個系列文章的參考書目,可以一讀:

  • 《大數據時代》
  • 《深入淺出數據分析》
  • 《金字塔原理》
  • 《增長黑客》

相關推薦

推薦中...