大數據預處理七步法(二):數據清洗

大數據 算法 航天智造 2019-07-11

1.缺失值的處理:

①忽略元組:若有多個屬性值缺失或者該元祖剩餘屬性值使用價值較小時,應選擇放棄

②人工填寫:該方法費時,數據龐大時行不通

③全局常量填充:方法簡單,但有可能會被挖掘程序愚以為形成了又去的概念

④屬性中心度量填充:對於正常的數據分佈而言可以使用均值,而傾斜數據分佈應使用中位數

⑤最可能的值填充:使用迴歸、基於推理的工具或者決策樹歸納確定。

2.噪聲數據與離群點:

噪聲:被測量的變量的隨機誤差或者方差(一般指錯誤的數據)

離群點:數據集中包含一些數據對象,他們與數據的一般行為或模型不一致。(正常值,但偏離大多數數據)

大數據預處理七步法(二):數據清洗

圖1

分箱(binning):通過考察數據周圍的值來光滑有序數據值,這些有序的值被分佈到一些“桶”或箱中,由於分箱方法只是考慮近鄰的值,因此是局部光滑。

大數據預處理七步法(二):數據清洗

圖2

分箱的方法:

等寬分箱:每個“桶”的區間寬度相同

等深分箱:每個“桶”的樣本個數相同

迴歸(regression):用一個函數擬合數據來光滑數據。

大數據預處理七步法(二):數據清洗

圖3

線性迴歸找出擬合兩個屬性(變量)的最佳直線;多元線性迴歸涉及多個屬性,將數據擬合到多維曲面

下圖即對數據進行線性迴歸擬合:

大數據預處理七步法(二):數據清洗

圖4

離群點:

2.1 離群點的分類

①全局離群點:個別數據離整體數據較遠

②集體離群點:一組數據與其他數據分佈方式不同

③情景離群點

大數據預處理七步法(二):數據清洗

圖5

2.2 離群點檢測的方法

①基於統計的離群點檢測:假設給定的數據集服從某一隨機分佈(如正態分佈等),用不一致性測試識別異常。

如果某個樣本點不符合工作假設,那麼認為它是離群點;如果它符合備選假設,則認為它是符合某一備選假設分佈的離群點。

②基於密度的局部離群點檢測:通過基於局部離群點檢測就能在樣本空間數據分佈不均勻的情況下也可以準確發現。

大數據預處理七步法(二):數據清洗

圖6

③基於距離的離群點檢測:如果樣本空間D至少有N個樣本點與對象O的距離大於d,那麼對象O是以至少N個樣本點和距離d為參數的基於距離的離群點。

大數據預處理七步法(二):數據清洗

圖7

④基於偏差的離群點檢測:通過檢查一組對象的主要特徵來識別離群點,那些些不符合這種特徵的數據對象被判定為離群點。

2.3 傳統離群點檢測的缺點:

①基於統計的算法:不適合多維空間,預先要知道樣本空間中數據集的分佈特徵

②基於距離的算法:參數的選取非常敏感,受時間複雜度限制,不適用於高維稀疏數據集。

③基於偏差的算法:實際應用少,在高維數據集中,很難獲得該數據集的主要特徵。

---------------------

相關推薦

推薦中...