常用數據挖掘算法從入門到精通第二章 K-means聚類算法

數據挖掘歐幾里得科技小AI諮詢小AI諮詢 2017-08-26

今天主要講述K-means聚類算法，並附有詳細的案例來幫助大家理解。

K-means聚類算法簡介

聚類分析也稱無監督學習，因為和分類學習相比，聚類的樣本沒有標記，需要由聚類學習算法來自動確定。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。

K-means聚類算法是最為經典也是使用最為廣泛的一種基於劃分的聚類算法，它屬於基於距離的聚類算法。

所謂基於距離的聚類算法是指採用距離作為相似性量度的評價指標，也就是說當兩個對象離得近時，兩者之間的距離比較小，那麼它們之間的相似性就比較大。這類算法通常是由距離比較相近的對象組成簇，把得到緊湊而且獨立的簇作為最終目標，因此將這類算法稱為基於距離的聚類算法。K-means聚類算法就是其中比較經典的一種算法。

K-means算法，也被稱為K-平均或K-均值算法，它是將各個聚類子集內的所有數據樣本的均值作為該聚類的代表點，算法的主要思想是通過迭代過程把數據集劃分為不同的類別，使得評價聚類性能的準則函數達到最優（誤差平方和準則函數E），從而使生成的每個聚類（又稱簇）內緊湊，類間獨立。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

聚類

相似度準則與聚類性能評價準則

常見的相似度/距離評價準則有：

歐幾里得距離

其意義就是兩個元素在歐氏空間中的集合距離，因為其直觀易懂且可解釋性強，被廣泛用於標識兩個標量元素的相異度。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

歐幾里得距離

曼哈頓距離

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

曼哈頓距離

閔可夫斯基距離

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

閔可夫斯基距離

聚類性能評價準則：

K-means聚類算法使用誤差平方和準則函數來評價聚類性能。給定數據集X，其中只包含描述屬性，不包含類別屬性。假設X包含K個聚類子集X1,X2,…XK；各個聚類子集中的樣本數量分別為n1，n2,…,nk;各個聚類子集的均值代表點（也稱聚類中心）分別為m1，m2,…,mk。

誤差平方和準則函數公式

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

誤差平方和準則函數公式

K-means聚類算法原理和步驟

輸入：初始數據集和簇(聚類)的數目K。

輸出：K個簇，滿足誤差平方和準則函數收斂。

算法步驟：

1）任意選擇K個數據對象作為初始聚類中心；

2）將樣本集中的樣本按照最小距離原則分配到最鄰近聚類中心；

3）使用得到的每個聚類中的樣本均值作為新的聚類中心；

4）重複步驟2和3直到聚類中心不再變化，或者是直到誤差平方和準則函數收斂，即|E(K+1)-E(K)|<e；

5）結束，得到K個聚類。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

K-Means算法的工作流程

K-means聚類算法實例

初始數據集，共5條記錄，每條數據記錄包含兩個屬性x和y。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

初始數據集

作為一個聚類分析的二維樣本，要求的簇的數量K=2。

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

K-Means算法實例

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

K-means聚類過程圖示

相關推薦

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'AI 算法工程師的 7 年總結，內部經驗放出（文末附教程）'

"入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在在阿里，也是負責算法方面的工作，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。算法崗競爭很激烈嗎？在外行人...

算法工程師人工智能深度學習數據挖掘技術人生第一份工作大數據網絡安全數學程序員電腦數據結構產品經理編程語言物理 2019-07-30

'機器學習算法已成量化投資跑贏市場的新推手 | 智周報告核心版'

"區別於傳統基本面分析和技術面分析，量化分析是從數量化的角度去挖掘存在某種數學關係的投資策略。結合機器學習算法的量化投資方法已在量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、算法交易等多類量化證券投資策略中應用。如今各類量化投資基金聘用機器學習算法科學家，組建人...

算法投資人工智能金融證券投資基金私募基金期貨數據挖掘期指自然語言處理私募技術分析師公募新聞數學人生第一份工作歷史 2019-07-30

'阿里文娛永叔：利器or成本損耗？算法不是黑匣子'

"2018年9月16日，由AICUG人工智能技術社區、Datafun社區、博學聯合主辦的2018 AI先行者大會於杭州召開，來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的AI實踐經驗。...

人工智能算法阿里巴巴集團技術 CSDN 優酷土豆高能小子終極裝備推薦技術百度淘寶網搜狗自然語言處理語音識別技術餓了麼數據挖掘市場營銷計算廣告學微軟京東商城硬件華為公司騰訊 2019-07-27

'漲姿勢咧~主宰這個世界的 10 大算法是哪些'

"00 前言01 什麼是算法？00 前言Reddit有篇帖子介紹了算法對我們現在生活的重要性，以及哪些算法對現代文明所做貢獻最大。這個表單並不完整，很多與我們密切相關的算法都沒有提到，如機器學習和矩陣乘法，歡迎你繼續補充。如果對算法有所瞭解，讀這篇文章時你可能會問“作者知道...

算法電腦網絡安全技術數學人工智能 Reddit 數據挖掘 Facebook 搜索引擎智能手機瀏覽器 Wi-Fi 殺毒軟件路由器 2019-07-15

主宰這個世界的10大算法，附贈程序員自學視頻教程

什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅...

算法程序員 Google+ Google 電腦技術網絡安全數學 Facebook 搜索引擎 Linkedin 瀏覽器數據挖掘智能手機殺毒軟件 YouTube Wi-Fi 人工智能歷史社交網絡 2019-07-13

2019騰訊廣告算法大賽完美收官，算法達人鵝廠“出道”

7月8日，2019騰訊廣告算法大賽“終極之戰”在深圳騰訊濱海大廈順利舉行。在前兩屆成功經驗的基礎上，今年大賽在賽題專業性和賽事體驗上都有了更大的提升，進而...

騰訊算法數據挖掘劉歡大學電子科技大學技術武漢大學大數據北京航空航天大學工程師深圳東南大學復旦大學廈門大學中山大學西安微軟亞洲研究院華南理工大學微軟哈爾濱工業大學浙江大學伊利諾伊機器學習 2019-07-11

讓程序員走遍天下都不怕的十個算法，附教程分享

算法程序員 Google+ Google 電腦網絡安全 Facebook 數學技術搜索引擎智能手機數據挖掘 Linkedin YouTube 瀏覽器 Wi-Fi 歷史殺毒軟件社交網絡人工智能 2019-07-07

簡單瞭解十大真實算法的特點

首先在說這個之前，我們首先要搞明白，什麼是算法？算法就是任何明確定義的計算過程，它接受一些值或集合作為輸入，併產生一些值或集合作為輸出。因此，算法就是將輸...

算法約瑟夫·傅里葉技術電腦數學查爾斯·庫利數據結構瀏覽器人工智能搜索引擎數據挖掘 2019-07-04

漲姿勢：主宰這個世界的10種算法

出自linux中文社區鏈接：https://linux.cn/article-3125-1.html什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算...

算法 Linux Google 電腦技術 Google+ 數學網絡安全 Facebook 數據挖掘瀏覽器 Wi-Fi 智能手機搜索引擎 YouTube Linkedin 人工智能殺毒軟件社交網絡 2019-06-20

如何用機器學習算法來進行電影分類？(含Python代碼)

電影分析——K近鄰算法週末，小迪與女朋友小西走出電影院，回味著剛剛看過的電影。小迪：剛剛的電影很精彩，打鬥場景非常真實，又是一部優秀的動作片！小西：是嗎？...

算法 Python 機器學習愛情片動作片戀愛電腦技術歐幾里得數據挖掘無問西東前任攻略唐人街探案 2019-06-05

智能安防時代，算法與場景齊發展才是王道

隨著人工智能的不斷深入發展，傳統安防加速向智能安防轉變，智能安防帶來的紅利讓越來越多的企業開始接受、認可並積極向智能安防轉型，而智能安防與傳統安防最大的不...

算法人工智能技術大數據電腦 GPU 語音識別技術並行計算金融王道工程師交通體育數據挖掘 2019-05-24

“算法”也有價值觀？

文 | 金誠騰訊遊戲數據挖掘應用中心研究員“算法到底有沒有價值觀？”這是近年來互聯網相關產業界、學術界均關心的問題。無論是一線的算法研發人員，還是從事法律...

算法數據結構歐幾里得技術騰訊遊戲圍棋 Pascal 歷史幾何原本數據挖掘 ?? 2019-04-21

樸素貝葉斯?CART聚類算法？入門機器學習的最佳路徑是什麼？

作者：佚名本文轉自：CDA數據分析師1、什麼是機器學習？在開篇之前，想和大家聊一下機器學習和數據挖掘的關係。其實數據挖掘只是機器學習中涉獵的領域之一，機器...

算法人工智能數據挖掘網絡安全自然語言處理英語電腦計算複雜性理論 2018頭條記憶語音識別技術 2019-04-08

機器學習算法中的概率方法

雷鋒網 AI 科技評論按，本文作者張皓，目前為南京大學計算機系機器學習與數據挖掘所（LAMDA）碩士生，研究方向為計算機視覺和機器學習，特別是視覺識別和深...

人工智能算法數學設計數據挖掘 2019-04-08

AI算法可識別兒童早期腦癱丨零點報數

零點報數◆零點有數為您帶來#數據智能#前沿播報◆數據挖掘數據顯示，2018年中國跨境電商交易規模達到9.1萬億元，用戶規模超1億，預計2019年將達到10...

人工智能算法大數據物聯網技術數據挖掘電子商務廣西能源自然語言處理憑祥劉知遠體育 2019-04-06

打破認知：程序設計 = 算法 + 數據結構？

大家好，我是陳暘，也是極客時間《數據分析實戰 45 講》專欄作者。很榮幸接到極客時間的邀請，來到極客 Live 和大家分享關於“數據分析”的話題。這次分享...

數據結構算法程序設計程序員數據挖掘極客數學彙編語言工程師高考 2018頭條記憶 2019-04-05

推薦中...

常用數據挖掘算法從入門到精通 第二章 K-means聚類算法

K-means聚類算法簡介

相似度準則與聚類性能評價準則

K-means聚類算法原理和步驟

K-means聚類算法實例

相關推薦

常用數據挖掘算法從入門到精通第二章 K-means聚類算法