數據挖掘是一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,並使用這些信息進行決策或提煉知識。數據挖掘的過程如圖2.2所示,包括三部分:數據準備、執行數據挖掘算法、結果解釋與評價。在實際應用中,數據挖掘流程是一個反覆循環的過程,從數據預處理、數據挖掘、模型建立到結果評價,各部分之間並沒有明顯的界限,可以從任何一個步驟返回前面到的環節。
\
一、數據準備
數據準備主要對各類數據進行預處理,包括數據清理、數據集成、數據選擇和數據轉換。數據準備又可分為數據選取、數據預處理和數據變換三個子步驟。數據選取的任務是確定挖掘任務的操作對象(即目標數據),是根據用戶的需求從數據集中選取出與數據挖掘相關的數據,以縮小處理範圍,提高數據挖掘質量;數據預處理一般包括消除噪聲、推導計算缺值數據、消除重複記錄、完成數據類型轉換等,其主要目的是通過對數據進行再分析,對數據進行清理和充實;數據變換的主要目的是降維,即減少數據挖掘時要考慮的特徵或變量個數,以便從初始特徵中找出真正有用的特徵。
二、執行數據挖掘算法
數據建模與數據挖掘算法執行是整個數據挖掘過程的核心組成部分,其工作是根據挖掘任務選擇適當的任務表達與算法(主要包括模糊理論、神經網絡、遺傳算法、支持向量機等),尋找有趣的模式(主要包括關聯、分類、聚類、迴歸等),然後給出這些模式的表示方式。數據挖掘算法執行階段首先需要根據對問題的定義明確挖掘的任務或目的,如分類、聚類、關聯規則發現等,然後選擇數據挖掘算法。數據挖掘的算法應當和目標數據匹配,並確定合適的模型及參數。
三、結果解釋和評估
結果解釋與評價主要對挖掘出的模式進行評估,識別表示知識的真正有趣的模式,並利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。在執行過程中,可以利用已有的知識來檢查和驗證新得到的知識。在本階段,首先對數據挖掘階段得到的結果進行解釋,可利用可視化方法直觀地表示出來,便於用戶理解,幫助用戶對基本的數據和現象做出結論;然後對結果經過評估,可以根據數據應用領域定義興趣度指標,考慮結果的正確度、新穎度,從結果中篩選出有用部分,提煉為知識,展示給用戶。
相關推薦
'數據挖掘|喜馬拉雅音頻內容分析'
"筆者從整體架構到欄目設置,深入分析了喜馬拉雅的音頻內容,供大家學習參考。01 行業概述據艾媒網數據,2018年中國在線音頻市場用戶規模達4.25億人,預計到2020年,中國在線音頻用戶規模將達5.42億人。筆者認為,得益於知識付費的爆發,依託於音頻媒介的知識獲取方式,越來...
'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'
"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark,擁有Had...
'數據挖掘發現新版Switch使用更強GPU功耗更低閃存'
"如果你最近兩天關注我們3DM對Switch的報道,那肯定知道任天堂除了9月20日會推出掌機玩法的Switch Lite之外,還將對現有Switch進行硬件更新升級。很多玩家對於Switch硬件升級表現出了更多的興趣,今日有人通過數據挖掘,提供了新版Switch相關的消息。...
不數據不運營,如何通過數據挖掘店鋪爆款
關鍵詞:數據分析適用行業:所有行業適用賣家規模:所有級別對於我們做淘寶的賣家來說,最希望的就是做成一個店鋪的爆款,因為爆款意味著更多的訂單、更多的訪客,而...
淘寶電商:不數據不運營,如何通過數據挖掘店鋪爆款
不數據不運營,如何通過數據挖掘店鋪爆款關鍵詞:數據分析適用行業:所有行業適用賣家規模:所有級別對於我們做淘寶的賣家來說,最希望的就是做成一個店鋪的爆款,因...
推薦中...