常用數據挖掘算法從入門到精通 第一章數據預處理(6)數據離散化和概念層次

數據挖掘 科技 小AI諮詢 小AI諮詢 2017-08-06

數據離散化和概念層次的概念

  • 屬性值分類

    • 枚舉型/類別型

      • 有序的

      • 無序的

    • 連續型:如 實數類型

  • 數據離散化

    • 對於一個特定的連續屬性,可以把屬性值劃分成若干區間,以區間值來代替實際數據值,以減少屬性值的個數

  • 概念層次

    • 利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實際數據值(實際年齡),以減少屬性值的個數

數值數據的離散化和概念分層建立的方法

  • 分箱(Binning)

  • 直方圖分析

  • 聚類分析的方法

  • 根據自然分類進行分割

分箱方法:一種簡單的離散化技術

  • 相同寬度 (距離)數據分割

    • 將數據分成N等份,各個等份數據之間具有相同的距離

    • 如果 A 和 B 分別為屬性值中的最大值和最小值,那麼各個數據等份之間的距離為:W = (B-A)/N.

    • 異常點將會扮演很重要的角色

    • 傾斜的數據不能很好的解決

  • 相同深度 (頻率)數據分割

    • 將數據分成N等份,各個等份具有相同的數據個數。

    • 具有較好的可伸縮性

    • 適合於數據分類的情況

離散化:直方圖方法

  • 將數據分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶

  • 可以通過編程,動態修改部分參數,進行合理構造

常用數據挖掘算法從入門到精通 第一章數據預處理(6)數據離散化和概念層次

直方圖

離散化:聚類分析方法

  • 將數據按照“類內最大相似度,類間最小相似度的原則”對數據進行有效聚類

  • 利用聚類的中心點來表示該類所包含的對象

  • 數據聚類將非常有效,但是必須保證數據中沒有噪音數

常用數據挖掘算法從入門到精通 第一章數據預處理(6)數據離散化和概念層次

聚類

相關推薦

推薦中...