“機器學習”技術之聚類分析概述和常用方法總結

今天給大家概述一下機器學習中經常用到的一個技術—聚類分析,使大家對聚類分析有一個全面大致的瞭解。

聚類分析介紹

  • 聚類數據挖掘的重要工具,根據數據間的相似性將數據分成多個類,每類中數據應儘可能相似。從機器學習的觀點來看,類相當於隱藏模式尋找類是無監督學習過程

  • 聚類算法通常有分層聚類分割聚類基於密度的聚類基於柵格的聚類字符屬性聯合聚類高維數據聚類神經網絡聚類

  • 聚類算法選擇時,不僅要考慮所要處理的數據屬性的種類,也要考慮算法的抗干擾性時間複雜度

“機器學習”技術之聚類分析概述和常用方法總結

聚類分析

聚類分析的過程

  1. 數據預處理——標準化

  2. 構造關係/距離矩陣——親疏關係的描述

  3. 聚類——根據不同方法進行聚類

  4. 確定最佳分類——類別數

數據預處理

指標變量的量綱不同數量級相差很大,為了使這些數據能放到一起加以比較,常需做變換。

Z-Scores標準化變換

“機器學習”技術之聚類分析概述和常用方法總結

Z-Scores標準化變換

Range –1 to 1:極差標準化變換

“機器學習”技術之聚類分析概述和常用方法總結

極差標準化變換

Range 0 to 1:極差正規化變換 / 規格化變換

“機器學習”技術之聚類分析概述和常用方法總結

極差正規化變換 / 規格化變換

Mean of 1:均值為1

“機器學習”技術之聚類分析概述和常用方法總結

均值為1

Standard deviation of 1:方差為1

“機器學習”技術之聚類分析概述和常用方法總結

方差為1

構造關係/距離矩陣

歐氏(Euclidean)距離

未考慮指標間的相關性和各變量方差的不同。

“機器學習”技術之聚類分析概述和常用方法總結

歐氏(Euclidean)距離

切比雪夫(Chebychev)距離

“機器學習”技術之聚類分析概述和常用方法總結

切比雪夫(Chebychev)距離

明氏(Minkowski)距離

“機器學習”技術之聚類分析概述和常用方法總結

明氏(Minkowski)距離

夾角餘弦

“機器學習”技術之聚類分析概述和常用方法總結

夾角餘弦

Pearson相關係數

“機器學習”技術之聚類分析概述和常用方法總結

Pearson相關係數

Block:絕對值距離

“機器學習”技術之聚類分析概述和常用方法總結

絕對值距離

聚類方法的選擇

  • 層次聚類/譜系聚類

  • K-Means聚類、K-Medoids聚類

  • 模糊聚類、圖論聚類、SOM聚類等

感興趣的讀者可以閱讀作者之前寫的文章瞭解詳細內容和具體案例。

《常用數據挖掘算法從入門到精通 第二章 K-means聚類算法》

《常用數據挖掘算法從入門到精通 第三章 K-中心點聚類算法》

《常用數據挖掘算法從入門到精通 第四章SOM神經網絡聚類(上)》

《常用數據挖掘算法從入門到精通 第四章SOM神經網絡聚類(下)》

聚類個數的確定

  • 任何類都必須在臨近各類中是突出的,即各類重心間距離必須極大

  • 確定的類中,各類所包含的元素都不要過分地多

  • 分類的數目必須符合實際使用目的

  • 若採用幾種不同的聚類方法處理,則在各自的聚類圖中應發現相同的類

相關推薦

推薦中...