機器學習：Python實現聚類算法之K-Means

Python 機器學習編程語言大數據中國統計網 2017-06-13

1.簡介

K-means算法是最為經典的基於劃分的聚類方法，是十大經典數據挖掘算法之一。

K-means算法的基本思想是：以空間中k個點為中心進行聚類，對最靠近他們的對象歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

2. 算法大致流程為：

1）隨機選取k個點作為種子點(這k個點不一定屬於數據集)

2）分別計算每個數據點到k個種子點的距離，離哪個種子點最近，就屬於哪類

3）重新計算k個種子點的座標(簡單常用的方法是求座標值的平均值作為新的座標值)

4）重複2、3步，直到種子點座標不變或者循環次數完成

3.完整計算過程

1）設置實驗數據

運行之後，效果如下圖所示：

機器學習：Python實現聚類算法之K-Means

在圖中，ABCDE五個點是待分類點，k1、k2是兩個種子點。

2）計算ABCDE五個點到k1、k2的距離，離哪個點近，就屬於哪個點，進行初步分類。

結果如圖：

機器學習：Python實現聚類算法之K-Means

A、B屬於k1，C、D、E屬於k2

3）重新計算k1、k2的座標。這裡使用簡單的座標的平均值，使用其他算法也可以(例如以下三個公式)

a）Minkowski Distance公式——λ可以隨意取值，可以是負數，也可以是正數，或是無窮大。

b）Euclidean Distance公式——也就是第一個公式λ=2的情況

c）CityBlock Distance公式——也就是第一個公式λ=1的情況

採用座標平均值算法的結果如圖：

4）重複2、3步，直到最終分類完畢。下面是完整的示例代碼：

import numpy as np

最終分類結果：

由上圖可以看出，C點最終是屬於k1類，而不是開始的k2.

機器學習：Python實現聚類算法之K-Means

4.K-Means的不足

K-Means算法的不足，都是由初始值引起的：

1）初始分類數目k值很難估計，不確定應該分成多少類才最合適(ISODATA算法通過類的自動合併和分裂，得到較為合理的類型數目k。這裡不講這個算法)

2）不同的隨機種子會得到完全不同的結果(K-Means++算法可以用來解決這個問題，其可以有效地選擇初始點)

算法流程如下：

1）在數據集中隨機挑選1個點作為種子點

##隨機挑選一個數據點作為種子點

2）計算剩數據點到這個點的距離d(x),並且加入到列表

##計算數據點到種子點的距離

3）再取一個隨機值。這次的選擇思路是：先取一個能落在上步計算的距離列表求和後(sum(dis_list))的隨機值rom，然後用rom -= d(x)，直到rom<=0，此時的點就是下一個“種子點”

##隨機挑選另外的種子點

4）重複第2步和第3步，直到選出k個種子

5）進行標準的K-Means算法。下面完整代碼

import numpy as np

如圖所示，選擇了A、E兩點作為種子點。

機器學習：Python實現聚類算法之K-Means

最終的結果。

補充說明：因為數據量太少，在選取所有種子函數的while階段有可能陷入死循環，所以需要關閉代碼重新運行才可以出結果。

機器學習：Python實現聚類算法之K-Means

6.sklearn包中的K-Means算法

1）函數：sklearn.cluster.KMeans

2）主要參數

n_clusters：要進行的分類的個數，即上文中k值，默認是8

max_iter ：最大迭代次數。默認300

min_iter ：最小迭代次數，默認10

init：有三個可選項

‘k-means ++’：使用k-means++算法，默認選項

‘random’:從初始質心數據中隨機選擇k個觀察值

第三個是數組形式的參數

n_jobs: 設置並行量（-1表示使用所有CPU）

3）主要屬性：

cluster_centers_ ：集群中心的座標

labels_ : 每個點的標籤

4）官網示例：

>>> from sklearn.cluster import KMeans

End.

來自：燈塔大數據

國統計網，是國內最早的大數據學習網站，歡迎關注！

機器學習：Python實現聚類算法之K-Means

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'用Python控制Excel實現自動化辦公！附全套學習教程'

"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼：操作完成後，數據存儲結果如下：3. 操作簡單Excel文檔並添加數據格式操作代碼如下：附帶數據格式的定義操作效果如圖所示：4.Excel中添加不同類型的數據操作代碼如下：將不同的數據按照指定的格式添加到文件中代碼執行...

Excel Python 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'用PLC實現流量累加算法講解'

"在使用s7-1200PLC編寫程序的時候，如果項目上需要用到流量累積功能，但是本款PLC並沒有自帶流量累積功能塊。這時，就需要我們組態工程師自己編寫一個具有流量累積功能程序，或者將該程序封裝為FB塊或者FC塊。本文以封裝FB塊為例。第一步：在程序塊目錄下單擊添加新塊，彈出...

算法編程語言 2019-09-12

'「雜談」什麼是我心目中深度學習算法工程師的標準'

"有三AI平臺只專心做原創輸出很少扯淡也不蹭熱點，不過最近詢問的朋友多了，不得不統一寫篇文章來回答一下這個大家都很關心的問題，當然，這僅僅是個人觀點。作者&編輯 | 言有三目前利用深度學習這個工具可以做很多事情，各大領域(圖像，語音，NLP等)，各大行業(娛樂，金融...

人工智能算法工程師人生第一份工作 Python 招聘文章技術設計金融不完美媽媽 C語言 GitHub 數學麻將大眾汽車 Linux 2019-09-11

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'Python實現四種方法求解計算階乘和（1！+2！+3！+...+n！）'

"求解給定數字的階乘是非常簡單的一件事，用Python來實現也是非常簡單的，這裡的問題是給你一堆連續數字，求解他們的階乘總和，這裡我一共想到了4種不同的實現方法來解決上述問題，並對其做了擴充，上面是連續數字的階乘和，我給的方法只需要稍加修改同樣可以求解不連續數字的階乘和，下...

Python 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'手把手教你如何利用K均值聚類實現異常值的識別'

"首先，藉助於Python隨機生成兩組二維數據，用於後文的實戰。為了能夠更加直觀地洞察該數據，我們將其繪製成散點圖。# 導入第三方包import numpy as npimport matplotlib.pyplot as plt# 隨機生成兩組二元正態分佈隨機數np.ra...

算法 Python 可視化技術 2019-09-03

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'使用Python進行機器學習的假設檢驗（附鏈接&代碼）'

"作者：Jose Garcia翻譯：張睿毅校對：張一豪本文約3800字，建議閱讀10分鐘。作者給出了假設檢驗的解讀與Python實現的詳細的假設檢驗中的主要操作。也許所有機器學習的初學者，或者中級水平的學生，或者統計專業的學生，都聽說過這個術語，假設檢驗。我將簡要介紹一下這...

Python 機器學習讀書大學 2019-09-03

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

'python人和機器猜拳遊戲實現'

"人機猜拳比賽完成人機猜拳互動遊戲的開發，用戶通過控制檯輸入實現出拳，電腦通過程序中的隨機數實現出拳，每一局結束後都要輸出結果。當用戶輸入n時停止遊戲，並輸出總結果。#!/usr/bin/env python# -*- coding: UTF-8 -*-# 人和機器猜拳遊戲...

Python 電腦 2019-08-26

'第四十四節、Python之定義默認參數《Python學習》'

"定義函數的時候，還可以有默認參數。例如Python自帶的 int() 函數，其實就有兩個參數，我們既可以傳一個參數，又可以傳兩個參數：>>> int('123')123>>> int('123', 8)83int()函數的第二個參數是轉...

Python 2019-08-23

'GitHub Python項目推薦｜數據結構和算法必知必會的50個代碼實現'

"GitHub Python項目推薦|數據結構和算法必知必會的50個代碼實現項目熱度標星(star)：8860關注(watch)：486拷貝(fork)：2644貢獻人數：98 （貢獻人數很多哈）倉庫大小：1 MB最後更新：2019-08-17代碼提交活躍：開發語言主要語言...

Python GitHub 算法數據結構 TypeScript Kotlin Swift語言 JavaScript Scala Java 2019-08-23

'使用Python進行機器學習，為人工智能時代做準備'

"IT行業飛速發展，除了水漲船高的薪資水平，還有不斷推陳出新的編程技術。不同的技術，應用在不同的領域。但對於小白來說，想要投身這個行業，我該從何學起？那些應用領域是未來的大趨勢？而我未來的學習方向又有哪些呢？PythonPython的確挺神的~但不是生來就那麼神。Pytho...

Python 人工智能算法電腦技術腳本語言集成開發環境程序員鳶尾 2019-08-20

推薦中...