征服海量數據的倚天劍——數據挖掘

數據挖掘 機器學習 人工智能 沃爾瑪 一辰的遊樂場 2017-04-30

“大數據”時代來臨,如何解讀分析我們所面臨的各種數據,需要有趁手的“兵器”才行,小編為大家侃侃“數據挖掘”,稱其為倚天劍不為過。

一. 數據挖掘的產生

隨著數據存儲技術和採集技術的發展,越來越多的數據被收集,人們佔有的數據呈爆炸性增長。如果要從中提取有用的信息,需花費大量的人力和時間,傳統的數據庫概念、方法和技術己經難以有效解決現在的問題。而且,相當多的數據具有較強的時效性,這意味著數據的價值會隨著時間的推移而迅速降低。因此,迫切需要強有力的數據分析技術從海量數據中獲取信息或知識,在受到一些其他領域如統計學中的抽樣假設檢驗、人工智能中的機器學習搜索算法以及學習理論建模技術的啟發下,逐漸形成了一套完整的數據挖掘技術。

征服海量數據的倚天劍——數據挖掘

二. 什麼是數據挖掘

數據挖掘即從數據中挖掘或提取隱含的、新穎的、潛在有用的信息,是數據庫技術、人工智能、機器學習、統計學、模式識別、神經網絡、信息檢索以及可視化計算等多學科交叉發展而產生的新興學科(別問小編是怎麼知道的,從小到大沒少背名詞解釋)。

數據挖掘技術可以幫助人們從數據庫等相關數據集中提取出感興趣的、確實有用的知識和規律,並可以幫助人們從不同程度去分析它們、理解它們,從而更有效地利用這些數據。數據挖掘技術不僅可以用於描述數據過去的發展過程,執行描述任務,還能進一步預測數據的未來趨勢。

數據挖掘是一個多學科交叉的研究領域,它融合了統計學、數據庫技術、機器學習、人工智能以及數據可視化等技術。數據挖掘以一種全新的概念改變著人類利用數據的方式,使數據處理技術進入了一個更高級的階段,被稱為未來信息處理的骨幹技術之一。它不僅能對過去的數據進行查詢,而且著眼於找出過去數據之間存在的潛在聯繫,進行更高層次的分析,以便更好地預測未來的發展趨勢、做出正確決策。

征服海量數據的倚天劍——數據挖掘

三. 數據挖掘案例

1. 尿布與啤酒

說到數據挖掘,不得不說“尿布與啤酒”的故事。“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中。也就是說通過數據挖掘中的關聯分析,發現“啤酒”和“尿布”兩個看上去沒有關係的商品在購物籃數據集中頻繁出現。仔細瞭解發現,當時在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。既然尿不溼與啤酒一起被購買的機會很多,那麼沃爾瑪就在他們所有的門店裡將尿不溼與啤酒並排擺放在一起,結果是得到了尿不溼與啤酒的銷售量雙雙增長。

按常規思維,尿不溼與啤酒風馬牛不相及,若不是藉助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內這一有價值的規律的。通過對購物籃數據的關聯分析,可以幫助制定商務決策。如為了提高相關聯商品的銷售量,可將相關聯商品擺放在一起;如果為了提高顧客逗留時間,增加其他商品的銷量,可將相關聯商品適當分開擺放。

征服海量數據的倚天劍——數據挖掘

2. 人臉識別

目前人臉識別技術正廣泛的應用於各種安檢系統中,警方只需將犯罪分子的臉部數據採集到安檢數據庫,那麼只要犯罪分子一出現,系統就能精確地將其識別出來。現如今人臉識別技術已經相對成熟,谷歌在Picasa照片分享軟件的工具中就已經加入了人臉識別功能。當然,人臉識別技術牽涉到隱私,是把雙刃劍,谷歌在谷歌街景地圖中故意將人臉模糊化,變得無法識別就是這個原因。人臉識別雖然需要借力於其他技術,但是人臉識別中的主要技術還是來自於數據挖掘中的分類算法。

征服海量數據的倚天劍——數據挖掘

3. 意料之外:胸部最大的是新疆妹子

淘寶數據平臺顯示,購買最多的文胸尺碼為B罩杯。B罩杯佔比達41.45%,其中又以75B的銷量最好。其次是A罩杯,購買佔比達25.26%,C罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。

征服海量數據的倚天劍——數據挖掘

這是某網站列出的數據挖掘的案例,小編認為該案例主要是用了統計的知識,放在這裡,博君一笑。

相關推薦

推薦中...