挖掘機使用方法——數據挖掘的一般流程

數據挖掘 可視化 演化計算 科技 一辰的遊樂場 2017-05-02

數據挖掘是一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,並使用這些信息進行決策或提煉知識。數據挖掘的過程如圖2.2所示,包括三部分:數據準備、執行數據挖掘算法、結果解釋與評價。在實際應用中,數據挖掘流程是一個反覆循環的過程,從數據預處理、數據挖掘、模型建立到結果評價,各部分之間並沒有明顯的界限,可以從任何一個步驟返回前面到的環節。

\挖掘機使用方法——數據挖掘的一般流程

數據挖掘的 流程

一、數據準備

數據準備主要對各類數據進行預處理,包括數據清理、數據集成、數據選擇和數據轉換。數據準備又可分為數據選取、數據預處理和數據變換三個子步驟。數據選取的任務是確定挖掘任務的操作對象(即目標數據),是根據用戶的需求從數據集中選取出與數據挖掘相關的數據,以縮小處理範圍,提高數據挖掘質量;數據預處理一般包括消除噪聲、推導計算缺值數據、消除重複記錄、完成數據類型轉換等,其主要目的是通過對數據進行再分析,對數據進行清理和充實;數據變換的主要目的是降維,即減少數據挖掘時要考慮的特徵或變量個數,以便從初始特徵中找出真正有用的特徵。

挖掘機使用方法——數據挖掘的一般流程

二、執行數據挖掘算法

數據建模與數據挖掘算法執行是整個數據挖掘過程的核心組成部分,其工作是根據挖掘任務選擇適當的任務表達與算法(主要包括模糊理論、神經網絡、遺傳算法、支持向量機等),尋找有趣的模式(主要包括關聯、分類、聚類、迴歸等),然後給出這些模式的表示方式。數據挖掘算法執行階段首先需要根據對問題的定義明確挖掘的任務或目的,如分類、聚類、關聯規則發現等,然後選擇數據挖掘算法。數據挖掘的算法應當和目標數據匹配,並確定合適的模型及參數。

三、結果解釋和評估

結果解釋與評價主要對挖掘出的模式進行評估,識別表示知識的真正有趣的模式,並利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。在執行過程中,可以利用已有的知識來檢查和驗證新得到的知識。在本階段,首先對數據挖掘階段得到的結果進行解釋,可利用可視化方法直觀地表示出來,便於用戶理解,幫助用戶對基本的數據和現象做出結論;然後對結果經過評估,可以根據數據應用領域定義興趣度指標,考慮結果的正確度、新穎度,從結果中篩選出有用部分,提煉為知識,展示給用戶。

相關推薦

推薦中...