數據挖掘中的分類分析

數據挖掘 西瓜 地球 一辰的遊樂場 2017-05-07

分類分析是數據挖掘中預測建模的一種任務,用於預測離散的目標變量,相對的迴歸用於預測連續的目標變量。例如,預測一個web用戶是否會在網上書店買書是分類任務,因為該目標變量是二值的:是、否。另一方面,預測某股票的未來價格是迴歸任務,因為價格具有連續值屬性。兩項任務目標都是訓練一個模型,使目標變量預測值與實際值之間的誤差達到最小。

一、分類定義

比較科學的分類定義:分類任務就是通過學習得到一個目標函數f,把每個屬性集x映射到一個預先定義的類標號y。

數據挖掘中的分類分析

分類

相對於聚類來說,分類是有監督的學習,也叫有導師的學習,也就是說,訓練數據中有標記信息,知道什麼是對、什麼是錯。通過對訓練數據的學習,建立分類模型,用於對未知的測試數據集進行分類。

二、實例

用周志華老師舉的西瓜的例子,就是:

訓練數據集:

……

(色澤=青綠,根蒂=蜷縮,敲聲=濁響)<==>好瓜

(色澤=烏黑,根蒂=蜷縮,敲聲=濁響)<==>好瓜

(色澤=青綠,根蒂=硬挺,敲聲=清脆)<==>壞瓜

(色澤=烏黑,根蒂=稍蜷,敲聲=沉悶)<==>壞瓜

……

運用分類算法,建立分辨好壞瓜的分類模型,去西瓜攤買西瓜(測試數據集),看看能否買到好瓜。

數據挖掘中的分類分析

你想吃麼

三、用途

預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種特定的疾病。

分類任務就是確定對象屬於哪個預定義的目標類。分類問題是一個普遍的問題,有許多不同的應用。例如:根據電子郵件的標題和內容檢查出垃圾郵件,根據核磁共振掃描的結果區分腫瘤是惡性的還是良性的,根據星系的形狀對他們進行分類。

數據挖掘中的分類分析

螺旋狀星系

數據挖掘中的分類分析

橢圓狀星系

四、常用的分類算法

決策樹分類法、基於規則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法。

感興趣的小夥伴可以搜索研究一下相關算法。

關注一辰君,獲取更多有趣有用的知識。

相關推薦

推薦中...