常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

數據挖掘科技小AI諮詢小AI諮詢 2017-08-29

今天主要講述K-中心點聚類算法，並附有詳細的案例來幫助大家理解。K-中心點聚類算法也稱K-medoids聚類算法。

K-中心點聚類算法簡介

第二章中講了K-means聚類算法，但是K-means聚類算法最大的一個缺點就是對於離群點是敏感的，一個具有很大的極端值的數據對象可能會顯著地扭曲數據的分佈。採用誤差平方和準則函數作為聚類性能評價準則更是嚴重惡化了這一影響。為了降低這種敏感性，可以不採用簇中對象的均值最為參照點，而是在每個簇中選出一個實際的對象來代表該簇。其餘的每個對象聚類到與其最相似的代表性對象所在的簇中。這樣的劃分方法仍然是基於最小化所有對象與其對應的參照點之間的相異度之和的原則來執行。通常，該算法重複迭代，直到每個代表對象都成為它的簇的實際中心點，或是最靠中心的對象。這種算法稱為K-中心點聚類算法。

對於K-中心點聚類，首先隨意選擇初始代表對象/種子，只要能夠提高聚類質量，迭代過程就繼續用非代表對象替換代表對象。聚類結果的質量用代價函數來評估，該函數量度對象與其簇的代表對象之間總的相異度。

K-中心點聚類算法原理

K-中心點聚類算法選用簇中位置最中心的對象作為代表對象，試圖對n個對象給出k個劃分。

代表對象也被稱為是中心點，其他對象則被稱為非代表對象。
最初隨機選擇K個對象作為中心點，該算法反覆地用非代表對象來代替代表對象，試圖找出更好的中心點，以改進聚類的質量。
在每次迭代中，所有可能的對象對被分析，每個對中的一個對象是中心點，而另一個是非代表對象。
對可能的各種組合，估算聚類結果的質量。一個對象Oi被可以產生誤差平方總和減少的對象代替。在一次迭代中產生的最佳對象集合成為下次迭代的中心點。
為判定一個非代表對象Oh是否是當前一個代表對象Oi的好的替代，對每一個非中心點對象Oj，下面的四種情況被考慮：

第一種情況：Oj當前隸屬於中心點對象Oi。如果Oi被Oh所代替作為中心點，且Oj離某個中心點Om最近，i≠m，那麼Oj被重新分配給Om。
第二種情況：Oj當前隸屬於中心點對象Oi。如果Oi被Oh所代替作為中心點，且Oj離Oh最近，那麼Oj被重新分配給Oh。
第三種情況：Oj當前隸屬於中心點Om，m≠i。如果Oi被Oh代替作為中心點，而Oj依然離Om最近，那麼對象的隸屬不發生變化。
第四種情況：Oj當前隸屬於中心點Om，m≠i。如果Oi被Oh代替作為一箇中心點，且Oj離Oh最近，那麼Oi被重新分配給Oh。

每當重新分配發生時，誤差平方和E所產生的差別對代價函數有影響。因此，如果一個當前的中心點對象被非中心點對象所代替，代價函數表徵誤差平方和所產生的差別。替換的總代價是所有非中心點對象所產生的代價之和。

如果總代價是負的，那麼實際的誤差平方和將會減小，Oi可以被Oh替代。
如果總代價是正的，則當前的中心點Oi被認為是可接受的，在本次迭代中沒有變化。

總代價定義如下：

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

總代價

其中，Cjih表示Oj在Oi被Oh代替後產生的代價。

四種情況的代價函數

下面我們將介紹上面所述的四種情況中代價函數的計算公式，其中所引用的符號有：Oi和Om是兩個原中心點，Oh將替換Oi作為新的中心點。其中相異度或距離函數d的選擇因數據類型不同而可以有不同的選擇，對於K-中心點聚類算法一般選擇曼哈頓距離，具體的計算公式可以參考同系列文章《常用數據挖掘算法從入門到精通第二章 K-means聚類算法》中有關於相似度或者距離評價準則計算的詳細介紹和計算公式。

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

代價函數計算公式

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

代價函數計算圖示

K-中心點聚類算法步驟

算法 K-中心點算法

輸入：簇的數目K和包含n個對象的數據庫。

輸出：K個簇，使得所有對象與其最近中心點的相異度總和最小。

（1）任意選擇K個對象作為初始的簇中心點；

（2） REPEAT

（3）指派每個剩餘的對象給離它最近的中心點所代表的簇；

（4） REPEAT

（5）選擇一個未被選擇的中心點Oi；

（6） REPEAT

（7）選擇一個未被選擇過的非中心點對象Oh；

（8）計算用Oh代替Oi的總代價並記錄在S中；

（9） UNTIL 所有的非中心點都被選擇過；

（10） UNTIL 所有的中心點都被選擇過；

（11） IF 在S中的所有非中心點代替所有中心點後計算出的總代價有小於0存在 THEN 找出S中的用非中心點替代中心點後代價最小的一個，並用該非中心點替代對應的中心點，形成一個新的K箇中心點的集合；

（12）UNTIL 沒有再發生簇的重新分配，即所有的S都大於0.

K-中心點聚類算法實例

假如空間中的五個點｛A、Ｂ、Ｃ、Ｄ、Ｅ｝如下圖所示，各點之間的距離關係如下表所示，根據所給的數據對其運行K-中心點聚類算法實現劃分聚類（設K=2）。

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

初始樣本點和樣本點間距離表

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

第一步

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

第二步

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

總代價計算

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

總代價計算結果圖示

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

第一次迭代結果

相關推薦

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'AI 算法工程師的 7 年總結，內部經驗放出（文末附教程）'

"入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在在阿里，也是負責算法方面的工作，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。算法崗競爭很激烈嗎？在外行人...

算法工程師人工智能深度學習數據挖掘技術人生第一份工作大數據網絡安全數學程序員電腦數據結構產品經理編程語言物理 2019-07-30

'機器學習算法已成量化投資跑贏市場的新推手 | 智周報告核心版'

"區別於傳統基本面分析和技術面分析，量化分析是從數量化的角度去挖掘存在某種數學關係的投資策略。結合機器學習算法的量化投資方法已在量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、算法交易等多類量化證券投資策略中應用。如今各類量化投資基金聘用機器學習算法科學家，組建人...

算法投資人工智能金融證券投資基金私募基金期貨數據挖掘期指自然語言處理私募技術分析師公募新聞數學人生第一份工作歷史 2019-07-30

'阿里文娛永叔：利器or成本損耗？算法不是黑匣子'

"2018年9月16日，由AICUG人工智能技術社區、Datafun社區、博學聯合主辦的2018 AI先行者大會於杭州召開，來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的AI實踐經驗。...

人工智能算法阿里巴巴集團技術 CSDN 優酷土豆高能小子終極裝備推薦技術百度淘寶網搜狗自然語言處理語音識別技術餓了麼數據挖掘市場營銷計算廣告學微軟京東商城硬件華為公司騰訊 2019-07-27

'漲姿勢咧~主宰這個世界的 10 大算法是哪些'

"00 前言01 什麼是算法？00 前言Reddit有篇帖子介紹了算法對我們現在生活的重要性，以及哪些算法對現代文明所做貢獻最大。這個表單並不完整，很多與我們密切相關的算法都沒有提到，如機器學習和矩陣乘法，歡迎你繼續補充。如果對算法有所瞭解，讀這篇文章時你可能會問“作者知道...

算法電腦網絡安全技術數學人工智能 Reddit 數據挖掘 Facebook 搜索引擎智能手機瀏覽器 Wi-Fi 殺毒軟件路由器 2019-07-15

主宰這個世界的10大算法，附贈程序員自學視頻教程

什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅...

算法程序員 Google+ Google 電腦技術網絡安全數學 Facebook 搜索引擎 Linkedin 瀏覽器數據挖掘智能手機殺毒軟件 YouTube Wi-Fi 人工智能歷史社交網絡 2019-07-13

2019騰訊廣告算法大賽完美收官，算法達人鵝廠“出道”

7月8日，2019騰訊廣告算法大賽“終極之戰”在深圳騰訊濱海大廈順利舉行。在前兩屆成功經驗的基礎上，今年大賽在賽題專業性和賽事體驗上都有了更大的提升，進而...

騰訊算法數據挖掘劉歡大學電子科技大學技術武漢大學大數據北京航空航天大學工程師深圳東南大學復旦大學廈門大學中山大學西安微軟亞洲研究院華南理工大學微軟哈爾濱工業大學浙江大學伊利諾伊機器學習 2019-07-11

讓程序員走遍天下都不怕的十個算法，附教程分享

算法程序員 Google+ Google 電腦網絡安全 Facebook 數學技術搜索引擎智能手機數據挖掘 Linkedin YouTube 瀏覽器 Wi-Fi 歷史殺毒軟件社交網絡人工智能 2019-07-07

簡單瞭解十大真實算法的特點

首先在說這個之前，我們首先要搞明白，什麼是算法？算法就是任何明確定義的計算過程，它接受一些值或集合作為輸入，併產生一些值或集合作為輸出。因此，算法就是將輸...

算法約瑟夫·傅里葉技術電腦數學查爾斯·庫利數據結構瀏覽器人工智能搜索引擎數據挖掘 2019-07-04

漲姿勢：主宰這個世界的10種算法

出自linux中文社區鏈接：https://linux.cn/article-3125-1.html什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算...

算法 Linux Google 電腦技術 Google+ 數學網絡安全 Facebook 數據挖掘瀏覽器 Wi-Fi 智能手機搜索引擎 YouTube Linkedin 人工智能殺毒軟件社交網絡 2019-06-20

如何用機器學習算法來進行電影分類？(含Python代碼)

電影分析——K近鄰算法週末，小迪與女朋友小西走出電影院，回味著剛剛看過的電影。小迪：剛剛的電影很精彩，打鬥場景非常真實，又是一部優秀的動作片！小西：是嗎？...

算法 Python 機器學習愛情片動作片戀愛電腦技術歐幾里得數據挖掘無問西東前任攻略唐人街探案 2019-06-05

智能安防時代，算法與場景齊發展才是王道

隨著人工智能的不斷深入發展，傳統安防加速向智能安防轉變，智能安防帶來的紅利讓越來越多的企業開始接受、認可並積極向智能安防轉型，而智能安防與傳統安防最大的不...

算法人工智能技術大數據電腦 GPU 語音識別技術並行計算金融王道工程師交通體育數據挖掘 2019-05-24

“算法”也有價值觀？

文 | 金誠騰訊遊戲數據挖掘應用中心研究員“算法到底有沒有價值觀？”這是近年來互聯網相關產業界、學術界均關心的問題。無論是一線的算法研發人員，還是從事法律...

算法數據結構歐幾里得技術騰訊遊戲圍棋 Pascal 歷史幾何原本數據挖掘 ?? 2019-04-21

樸素貝葉斯?CART聚類算法？入門機器學習的最佳路徑是什麼？

作者：佚名本文轉自：CDA數據分析師1、什麼是機器學習？在開篇之前，想和大家聊一下機器學習和數據挖掘的關係。其實數據挖掘只是機器學習中涉獵的領域之一，機器...

算法人工智能數據挖掘網絡安全自然語言處理英語電腦計算複雜性理論 2018頭條記憶語音識別技術 2019-04-08

機器學習算法中的概率方法

雷鋒網 AI 科技評論按，本文作者張皓，目前為南京大學計算機系機器學習與數據挖掘所（LAMDA）碩士生，研究方向為計算機視覺和機器學習，特別是視覺識別和深...

人工智能算法數學設計數據挖掘 2019-04-08

AI算法可識別兒童早期腦癱丨零點報數

零點報數◆零點有數為您帶來#數據智能#前沿播報◆數據挖掘數據顯示，2018年中國跨境電商交易規模達到9.1萬億元，用戶規模超1億，預計2019年將達到10...

人工智能算法大數據物聯網技術數據挖掘電子商務廣西能源自然語言處理憑祥劉知遠體育 2019-04-06

打破認知：程序設計 = 算法 + 數據結構？

大家好，我是陳暘，也是極客時間《數據分析實戰 45 講》專欄作者。很榮幸接到極客時間的邀請，來到極客 Live 和大家分享關於“數據分析”的話題。這次分享...

數據結構算法程序設計程序員數據挖掘極客數學彙編語言工程師高考 2018頭條記憶 2019-04-05

推薦中...

常用數據挖掘算法從入門到精通 第三章 K-中心點聚類算法

K-中心點聚類算法簡介

K-中心點聚類算法原理

四種情況的代價函數

K-中心點聚類算法步驟

K-中心點聚類算法實例

相關推薦

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法