什麼是數據挖掘？數據挖掘的一般過程是怎樣的？

算法數據挖掘大數據機器學習技術加米穀大數據 2019-07-10

大數據時代已經來臨，利用網絡和生活中產生的大量數據發現問題並創造價值，使得數據挖掘成了一門新的學科和技術。那麼什麼是大數據挖掘，數據挖掘的過程是什麼，以及它的具體算法又有哪些?今天這篇文章，將帶你一起了解數據挖掘的那些事兒。來源：移動Labs原創

01、首先，數據挖掘到底是什麼?

官方的定義，數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

通俗易懂的說，數據挖掘就是從大量的數據中，發現那些我們想要的“東西”。

02 這個“東西”具體指什麼?

一種被稱為預測任務。

也就是說給了一定的目標屬性，讓去預測目標的另外一特定屬性。如果該屬性是離散的，通常稱之為‘分類’，而如果目標屬性是一個連續的值，則稱之為‘迴歸’。

另一種被稱為描述任務。

這是指找出數據間潛在的聯繫模式。比方說兩個數據存在強關聯的關係，像大數據分析發現的一個特點：買尿布的男性通常也會買點啤酒，那麼商家根據這個可以將這兩種商品打包出售來提高業績。另外一個非常重要的就是聚類分析，這也是在日常數據挖掘中應用非常非常頻繁的一種分析，旨在發現緊密相關的觀測值組群，可以在沒有標籤的情況下將所有的數據分為合適的幾類來進行分析或者降維。

其他的描述任務還有異常檢測，其過程類似於聚類的反過程，聚類將相似的數據聚合在一起，而異常檢測將離群太遠的點給剔除出來。

03 數據挖掘的一般過程包括以下幾個方面：

數據預處理數據挖掘後處理

首先來說說數據預處理。之所以有這樣一個步驟，是因為通常的數據挖掘需要涉及相對較大的數據量，這些數據可能來源不一導致格式不同，可能有的數據還存在一些缺失值或者無效值，如果不經處理直接將這些‘髒’數據放到模型中去跑，非常容易導致模型計算的失敗或者可用性很差，所以數據預處理是數據挖掘過程中都不可或缺的一步。

至於數據挖掘和後處理相對來說就容易理解多了。完成了數據的預處理，我們通常進行特徵構造，然後放到特定的模型中去計算，利用某種標準去評判不同模型或組合模型的表現，最後確定一個最合適的模型用於後處理。後處理的過程相當於已經發現了那個我們想要找到的結果，然後去應用它或者用合適的方式將其表示出來。

這裡涉及到數據挖掘的一系列算法，主要分為分類算法，聚類算法和關聯規則三大類，這三類基本上涵蓋了目前商業市場對算法的所有需求。而這三類裡，最為經典的則是下面這十大算法。

1、分類決策樹算法C4.5

C4.5，是機器學習算法中的一種分類決策樹算法，它是決策樹(決策樹，就是做決策的節點間的組織方式像一棵倒栽樹)核心算法ID3的改進算法。

2、K平均算法

K平均算法(k-means algorithm)是一個聚類算法，把n個分類對象根據它們的屬性分為k類(k

3、支持向量機算法

支持向量機(Support Vector Machine)算法，簡記為SVM，是一種監督式學習的方法，廣泛用於統計分類以及迴歸分析中。

4、The Apriori algorithm

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法，其核心是基於兩階段“頻繁項集”思想的遞推算法。其涉及到的關聯規則在分類上屬於單維、單層、布爾關聯規則。

5、最大期望(EM)算法

最大期望(EM，Expectation–Maximization)算法是在概率模型中尋找參數最大似然估計的算法，其中概率模型依賴於無法觀測的隱藏變量。最大期望經常用在機器學習和計算機視覺的數據集聚領域。

6、Page Rank算法

Page Rank根據網站的外部鏈接和內部鏈接的數量和質量，衡量網站的價值。

7、Ada Boost 迭代算法

Ada boost是一種迭代算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器(強分類器)。

8、kNN 最近鄰分類算法

K最近鄰(k-Nearest Neighbor，KNN)分類算法，是一個理論上比較成熟的方法，也是最簡單的機器學習算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

9、Naive Bayes 樸素貝葉斯算法

Naive Bayes 算法通過某對象的先驗概率，利用貝葉斯公式計算出其後驗概率，並選擇具有最大後驗概率的類作為該對象所屬的類。樸素貝葉斯模型所需估計的參數很少，對缺失數據不太敏感，其算法也比較簡單。

10、CART: 分類與迴歸樹算法。

分類與迴歸樹算法(CART，Classification and Regression Trees)是分類數據挖掘算法的一種，有兩個關鍵的思想：第一個是關於遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。

結語：

一入數據挖掘深似海，從此奮鬥到天明。光是這十大算法，就夠你啃上好一段時間了......

但請不要恐慌，想想自己可以利用機器的力量、數學的力量理解世界的運行規律，去預測或者利用研究到的東西做一些有意思的事情，這也是一種不可多得的享受!

相關推薦

'2019天翼博覽會 | ESE十一年進化探風口，一圖秒懂它在展什麼'

"萬眾矚目5G近在咫尺9月19日，天翼智能生態博覽會將在廣州拉開帷幕作為比肩美國CES、西班牙MWC的博覽會，經過十一年發展的天翼智能生態博覽會，在這些年中都有著怎樣的進化呢？讓我們來細數一下吧。裂變：從手機交易平臺到生態紐帶初代的天翼博覽會於2009年在金陵南京盛大開幕，...

我的第一部5G手機運營商移動互聯網中國電信人工智能華為公司通信技術物聯網高通愛立信華為榮耀廣州三星集團金融 MWC 諾基亞 CES 科大訊飛騰訊QQ 南京 OPPO 新聞大數據無人駕駛 2019-09-19

'旺季選品有什麼特別標準？節日季亞馬遜必爆產品推薦'

"最近有薈員在聽了跨境情報室後，給我們建議說希望我們能夠給大家針對於節日季推出一些能夠輕鬆上手，同時快速見效的建議。所以，在今天我們要給大家分享的內容會相對簡單，那就是我們針對了亞馬遜銷售最火的5大品類，併為大家選擇了5款推廣非常輕鬆，而且推了必爆的商品。01、節日季選品原...

亞馬遜體育大數據護理服裝 2019-09-19

'馬雲提出的TechFin，會顛覆什麼？'

"來源：庭前獨角獸特別提示：凡本號註明“來源”或“轉自”的作品均轉載自媒體，版權歸原作者及原出處所有。所分享內容為作者個人觀點，僅供讀者學習參考，不代表本號觀點。2017年1月份，阿里巴巴集團的高管突然有一天造訪了螞蟻金服，與螞蟻金服的高管們開會。當日，馬雲在會議上提出了...

金融技術馬雲人工智能大數據算法銀行機器學習阿里巴巴集團軟件亞馬遜公司螞蟻金服自媒體約瑟夫·熊彼特人生第一份工作電腦 Uber Google 硅谷 Facebook 創業 2019-09-18

'為什麼你的微信沒有開通微粒貸，可能是這三點'

"微信是一個規模超過10億的國民級應用，也是中國最受歡迎的社交軟件。當然了它除了是社交界的老大之外，在移動支付領域，它有著同樣的霸主地位，它是僅次於支付寶的第二大支付軟件。不過與常用的支付功能相比，微信的微粒貸可能很少使用。而支付寶的花唄、借唄我們卻是經常的使用。其實微粒貸...

微信芝麻信用移動支付支付寶信用卡騰訊QQ 信用記錄關愛日金融騰訊軟件大數據 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'直到今天，終於明白了，騰訊為什麼要推“微信版花唄”？'

"9月12日，騰訊將上線微信版“花唄”在網絡上刷屏。根據相關媒體的爆料：騰訊內部正在孵化一款信用支付產品“分付”（暫定產品名稱）。繼螞蟻花唄、京東白條之後，“分付”代表騰訊系重新點燃了信用支付的戰火。將來用戶在使用微信支付時，或許可以使用“分付”先付款。哎呀，說白了這就是一...

騰訊微信金融芝麻信用移動互聯網社交網絡雲計算支付寶大數據京東商城馬雲信用卡 2019-09-18

'王者榮耀這是什麼鬼遊戲，是人玩的嗎？'

"從王者37星一路掉星掉到王者1星期間有玩輔助被扣8分期間有玩打野被扣8分期間有玩射手被扣8分明明好好的，很努力，很認真的在玩這個遊戲可是現實狠狠地給了我一巴掌直到現在我才知道，王者榮耀你很認真，你很努力地玩，然而並沒有什麼卵用分照樣扣因為系統不會因為你救隊友而不扣分因為系...

王者聯盟大數據 2019-09-18

'關注 | 2019世界計算機大會，看看大咖們都在聊什麼？'

"“計算萬物湘約未來”9月10日2019世界計算機大會在長沙梅溪湖國際文化藝術中心隆重開幕在開幕式與主論壇上，中國科學院院士、中國人民解放軍軍事科學院院長楊學軍，諾貝爾經濟學獎獲得者芬恩·基德蘭德等17位來自計算、網絡技術等相關領域的著名專家、學者作主題演講。共同探討計算...

電腦技術網絡安全機器人操作系統芬恩·基德蘭德黑客人工智能軟件智能手機楊學軍大數據設計經濟湖南跳槽那些事兒中國電子科技集團物聯網人生第一份工作諾貝爾獎諾貝爾經濟學獎大學長沙國防科學技術大學金融文化習近平藝術 2019-09-18

'中國海上風電到底要跟歐洲學什麼？'

"我國海上風電儘管起步較晚，但裝機規模連續幾年快速增長，2018年中國海上風電新增裝機容量達到165萬千瓦，同比增長42.7%，海上風電新增裝機首次超過歐洲國家，佔全球新增裝機容量40%，位居第一。歐洲在海上風電行業涉入較早，開發經驗豐富，具有先進的工程裝備技術和成功的行業...

歐洲技術投資大數據能源新能源設計英國地質算法丹麥江蘇颱風鹽城臺灣浙江省氣象瑞典歷史洋流 2019-09-18

'曾經數學只考10分的碼農，為什麼離職做了這款產品'

" 科技有溫度。文 | 張超你知道哪個省份的人最注重個人隱私嗎？你知道目前日常法律諮詢中，什麼類型的諮詢佔比最多嗎？AI法律產品“包小黑”最近發佈了大數據統計，通過對幾十萬諮詢用戶的統計，發現目前安徽省的用戶最注重個人隱私，每萬人的涉隱私糾紛數是1.10件，在所有省份中排...

數學程序員人工智能技術法律算法機器人大數據大學人生第一份工作杭州淘寶網阿里巴巴集團工程師萬物嚐鮮節農村摩托羅拉創業支付寶法制大連理工大學 2019-09-17

'區塊鏈的本質到底是什麼？'

"鱷魚只做行情預報，不做事後諸葛！以防失聯，請關注鱷魚看趨勢今日行情比特幣區間內震盪中秋好好過節比特幣昨日上漲2.52%，整體還處於區間內震盪，沒有主趨勢，11000美元不被上破，向上的空間就無法打開；技術面，日線圖，K線在7日均線和中軌區間反覆穿越，沒有延續性；小時圖，突...

區塊鏈比特幣經濟法國期貨銀行投資技術委內瑞拉鱷魚物聯網彭博新聞社石油我的第一部5G手機大數據 Twitter 雲計算文章 Facebook 蘇黎世聯邦理工學院 2019-09-17

'消費升級時代零售業的未來是什麼'

"中國商網彭榮嶽/製圖中國商報/中國商網（記者冉隆楠）隨著居民消費的品質逐步升級，如何跟上並滿足不斷增長的消費需求成為目前我國零售業關注的重點。9月5-7日，在重慶召開的第十九屆亞太零售商大會暨國際消費品博覽會上，多名業內人士表示，科技創新、管理創新和品牌創新會是未來零...

市場營銷經濟廣百股份技術大數據雲計算原汁原味的德系SUV 物聯網重慶廣東 2019-09-17

'華為拿什麼破解AI核心難題？'

"C114訊 9月16日早間消息（舒允文）OpenAI近期發佈的研究顯示，僅2012年以來，人們對於算力的需求增長六年就超過30萬倍，平均每年增長10倍，遠遠超過了摩爾定律的發展速度。作為AI的後入局者，面對AI算力需求的爆發式增長，華為大膽地提出要為業界提供“易獲取、用得...

人工智能華為公司技術雲計算英偉達詹姆斯·瓦特 GPU Google 自然語言處理列奧納多·達·芬奇移動互聯網硬件運營商物聯網納米技術英國電腦穿戴設備特斯拉汽車大數據設計算法交通無人駕駛中央處理器我的第一部5G手機 2019-09-17

'近9月砸20億！中國人壽再出手，逼近三次舉牌，暴漲60%！險資為什麼青睞這隻股票？'

"中國人壽繼續增持萬達信息(300168)的步伐仍未停歇。9月12日晚間，萬達信息披露稱，公司於當日收到持股5%以上股東國壽資產出具的其受託管理的中國人壽相關賬戶的增持情況告知函。告知函顯示，中國人壽以其委託國壽資產管理的“中國人壽保險股份有限公司—傳統—普通保險產品—00...

中國人壽保險萬達信息萬達集團投資人壽保險頭號大贏家| 理財大賽第二季深圳鳳凰人生第一份工作深圳證券交易所大數據雲計算 2019-09-16

'重慶為什麼叫重慶？'

"江北嘴全景圖/張坤琨你好，我是重慶。我是中國歷史文化名城，自古是兵家必爭之地、商賈爭佔之埠。現在，是中國西部唯一直轄市，正致力於推動高質量發展，創造高品質生活，打造“山清水秀美麗之地”。歷史上的我——我為什麼叫“重慶”？那可是有故事的。1189年，趙惇在此先封恭王，旋即...

重慶宋光宗抗日戰爭我在宮裡做廚師家住長江邊農村大數據重慶穿越之旅醫療保險蒙古交通經濟第二次世界大戰文化嘉陵江學前教育養老保險人工智能秦朝紅巖中國歷史騰訊物聯網 SK海力士 2019-09-16

'良品鋪子生與死一線之差，是什麼挽救了它？'

"隨著新一輪消費升級，電商表面繁華的背後，充斥著低價文化、同行之間的惡性競爭、產品同質化、顧客忠誠度低等問題。今年電商法的實施，成為優勝劣汰的催化劑，面對行業重新洗牌，即使是品牌商家，沒有抓住正確的發展方向，被淘汰出局也在所難免，當然也有不少商家脫穎而出，殺出一條血路。作為...

市場營銷萬物嚐鮮節大數據技術 2019-09-16

'5G即將到來，那麼5G能給我們帶來什麼？未來的世界是什麼樣？'

"大家好，這裡是白話談科技，今天是中秋節，在這裡小編代表白話科技。祝大家中秋節快樂，闔家幸福！今天跟大家聊聊5g的話題，iPhone11馬上就要上市了，這次他推出了5g的版本。那麼5g和我們現在使用的4G到底有什麼區別呢？那我們從頭聊聊這些年我們的通訊是怎麼發展的。那我們先...

我的第一部5G手機智能家居通信智能手機物聯網運營商機器學習技術中國聯通中國移動服裝中秋節中國電信電腦小靈通平板電腦算法 Google 2019-09-16

'蘋果真的沒有了創新？別忘了蘋果最擅長什麼'

"【環球網科技報道記者張陽】北京時間9月10日是一個歷史性的時間，這一天上半夜阿里巴巴董事局主席馬雲卸任，而在下半夜，盛大的蘋果 2019 秋季新品發佈會在庫比蒂諾喬布斯劇院舉行一系列新品在會上發佈，兩個以創新著稱的企業傳奇依然在延續。本次的發佈會蘋果重點發布了兩項服務...

iPhone 蘋果公司智能手機智能手錶中央處理器 Apple Watch 硬件人工智能 Android Apple TV 筆記本電腦 iPad 電腦 GPU 我的第一部5G手機設計環境保護高通華為公司環球時報史蒂夫·喬布斯機器學習新聞攝影 2019-09-16

'節後會怎樣'

"大盤分析週四各指數開盤繼續震盪調整,大的結構這裡兩個小板已進入月線和周線共振上漲階段，兩個小板短期都在4浪震盪過程,中午後在特朗普關於貿易關稅推遲帶動下分時開始震盪反彈,但整體成交量明顯萎縮.從上證指數分時看,由於這裡分時下午拉起,防守位置逐步就上移到週四中午拉起的分時低...

北信源物聯網滬指信息安全華為公司智能家居網絡安全用友網絡技術操作系統寶信軟件人工智能軟件廣聯達京東方通信盛路通信大數據千方科技可視化技術人生第一份工作四維圖新海康威視中標麒麟紫光股份用友公司 IBM 交通能源美的集團環境保護中興通訊大華股份 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

推薦中...