“機器學習”技術之聚類分析概述和常用方法總結
今天給大家概述一下機器學習中經常用到的一個技術—聚類分析,使大家對聚類分析有一個全面大致的瞭解。
聚類分析介紹
聚類是數據挖掘的重要工具,根據數據間的相似性將數據分成多個類,每類中數據應儘可能相似。從機器學習的觀點來看,類相當於隱藏模式,尋找類是無監督學習過程
聚類算法通常有分層聚類、分割聚類、基於密度的聚類、基於柵格的聚類、字符屬性聯合聚類、高維數據聚類和神經網絡聚類等
在聚類算法選擇時,不僅要考慮所要處理的數據屬性的種類,也要考慮算法的抗干擾性和時間複雜度等
聚類分析的過程
數據預處理——標準化
構造關係/距離矩陣——親疏關係的描述
聚類——根據不同方法進行聚類
確定最佳分類——類別數
數據預處理
指標變量的量綱不同或數量級相差很大,為了使這些數據能放到一起加以比較,常需做變換。
Z-Scores標準化變換
Range –1 to 1:極差標準化變換
Range 0 to 1:極差正規化變換 / 規格化變換
Mean of 1:均值為1
Standard deviation of 1:方差為1
構造關係/距離矩陣
歐氏(Euclidean)距離
未考慮指標間的相關性和各變量方差的不同。
切比雪夫(Chebychev)距離
明氏(Minkowski)距離
夾角餘弦
Pearson相關係數
Block:絕對值距離
聚類方法的選擇
層次聚類/譜系聚類
K-Means聚類、K-Medoids聚類
模糊聚類、圖論聚類、SOM聚類等
感興趣的讀者可以閱讀作者之前寫的文章瞭解詳細內容和具體案例。
《常用數據挖掘算法從入門到精通 第二章 K-means聚類算法》
《常用數據挖掘算法從入門到精通 第三章 K-中心點聚類算法》
《常用數據挖掘算法從入門到精通 第四章SOM神經網絡聚類(上)》
《常用數據挖掘算法從入門到精通 第四章SOM神經網絡聚類(下)》
聚類個數的確定
任何類都必須在臨近各類中是突出的,即各類重心間距離必須極大
確定的類中,各類所包含的元素都不要過分地多
分類的數目必須符合實際使用目的
若採用幾種不同的聚類方法處理,則在各自的聚類圖中應發現相同的類