數據挖掘——數據預處理
數據的抽取要正確反映業務需求真正熟悉業務背景。確保抽取的數據所對應的當時業務背景,與現在的業務需求即將應用的業務背景沒有明顯的重大改變。數據抽樣為什麼要抽...
屬性值分類
枚舉型/類別型
有序的
無序的
連續型:如 實數類型
數據離散化
對於一個特定的連續屬性,可以把屬性值劃分成若干區間,以區間值來代替實際數據值,以減少屬性值的個數
概念層次
利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實際數據值(實際年齡),以減少屬性值的個數
分箱(Binning)
直方圖分析
聚類分析的方法
根據自然分類進行分割
相同寬度 (距離)數據分割
將數據分成N等份,各個等份數據之間具有相同的距離
如果 A 和 B 分別為屬性值中的最大值和最小值,那麼各個數據等份之間的距離為:W = (B-A)/N.
異常點將會扮演很重要的角色
傾斜的數據不能很好的解決
相同深度 (頻率)數據分割
將數據分成N等份,各個等份具有相同的數據個數。
具有較好的可伸縮性
適合於數據分類的情況
將數據分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶
可以通過編程,動態修改部分參數,進行合理構造
將數據按照“類內最大相似度,類間最小相似度的原則”對數據進行有效聚類
利用聚類的中心點來表示該類所包含的對象
數據聚類將非常有效,但是必須保證數據中沒有噪音數