數據挖掘十大經典算法之K均值算法

數據挖掘歐幾里得盤點科技一辰的遊樂場 2017-05-11

引言

前幾篇文章中，小編給大家介紹了數據挖掘的幾大任務。其中聚類分析是一種無監督的學習方法，它沒有任何先驗知識可用，主要用於進行數據探索，並給出數據描述，而且還可以作為數據預測和內容檢索等其它方面應用的起點。

代表性的算法有K均值算法，是一種古老的、最廣泛是用的聚類算法。

基本算法

核心思想：首先，選擇K個初始質心，其中K是用戶指定的參數，即所期望的類的個數。每個點指派到最近的質心，而指派到一個質心的點集為一個類。然後，根據指派到類的點，更新每個類的質心。重複指派和更新步驟，直到類不發生變化，或等價地，直到質心不發生變化。

算法描述：

選取K個初始質心（K個類）；

repeat：

對每個樣本點，計算得到距其最近的質心，形成K個類；
重新計算K個類對應的質心；

until 質心不再發生變化

對於歐式空間的樣本數據，以平方誤差和SSE（sum of the squared error)作為聚類的目標函數，同時也可以衡量不同聚類結果好壞的指標：

數據挖掘十大經典算法之K均值算法

其中，disc是歐式空間中兩個對象之間的標準歐幾里德距離，最優的聚類結果應使得SSE達到最小值。

下圖中給出了一個通過4次迭代聚類3個類的例子：

數據挖掘十大經典算法之K均值算法

找出樣本數據中的3個類

存在缺點

任何算法都有使用條件，都存在缺點。

K均值算法是局部最優的，容易受到初始質心的影響；比如在下圖中，因選擇初始質心不恰當而造成次優的聚類結果：

數據挖掘十大經典算法之K均值算法

初始質心不恰當而造成次優的聚類結果

K值的選取也會直接影響聚類結果，最優聚類的K值應與樣本數據本身的結構信息相吻合，而這種結構信息是很難去掌握，因此選取最優K值是非常困難的。

人人都是數據分析師，關注一辰君，獲取更多有用有趣的知識

相關推薦

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'AI 算法工程師的 7 年總結，內部經驗放出（文末附教程）'

"入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在在阿里，也是負責算法方面的工作，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。算法崗競爭很激烈嗎？在外行人...

算法工程師人工智能深度學習數據挖掘技術人生第一份工作大數據網絡安全數學程序員電腦數據結構產品經理編程語言物理 2019-07-30

'機器學習算法已成量化投資跑贏市場的新推手 | 智周報告核心版'

"區別於傳統基本面分析和技術面分析，量化分析是從數量化的角度去挖掘存在某種數學關係的投資策略。結合機器學習算法的量化投資方法已在量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、算法交易等多類量化證券投資策略中應用。如今各類量化投資基金聘用機器學習算法科學家，組建人...

算法投資人工智能金融證券投資基金私募基金期貨數據挖掘期指自然語言處理私募技術分析師公募新聞數學人生第一份工作歷史 2019-07-30

'阿里文娛永叔：利器or成本損耗？算法不是黑匣子'

"2018年9月16日，由AICUG人工智能技術社區、Datafun社區、博學聯合主辦的2018 AI先行者大會於杭州召開，來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的AI實踐經驗。...

人工智能算法阿里巴巴集團技術 CSDN 優酷土豆高能小子終極裝備推薦技術百度淘寶網搜狗自然語言處理語音識別技術餓了麼數據挖掘市場營銷計算廣告學微軟京東商城硬件華為公司騰訊 2019-07-27

'漲姿勢咧~主宰這個世界的 10 大算法是哪些'

"00 前言01 什麼是算法？00 前言Reddit有篇帖子介紹了算法對我們現在生活的重要性，以及哪些算法對現代文明所做貢獻最大。這個表單並不完整，很多與我們密切相關的算法都沒有提到，如機器學習和矩陣乘法，歡迎你繼續補充。如果對算法有所瞭解，讀這篇文章時你可能會問“作者知道...

算法電腦網絡安全技術數學人工智能 Reddit 數據挖掘 Facebook 搜索引擎智能手機瀏覽器 Wi-Fi 殺毒軟件路由器 2019-07-15

主宰這個世界的10大算法，附贈程序員自學視頻教程

什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅...

算法程序員 Google+ Google 電腦技術網絡安全數學 Facebook 搜索引擎 Linkedin 瀏覽器數據挖掘智能手機殺毒軟件 YouTube Wi-Fi 人工智能歷史社交網絡 2019-07-13

2019騰訊廣告算法大賽完美收官，算法達人鵝廠“出道”

7月8日，2019騰訊廣告算法大賽“終極之戰”在深圳騰訊濱海大廈順利舉行。在前兩屆成功經驗的基礎上，今年大賽在賽題專業性和賽事體驗上都有了更大的提升，進而...

騰訊算法數據挖掘劉歡大學電子科技大學技術武漢大學大數據北京航空航天大學工程師深圳東南大學復旦大學廈門大學中山大學西安微軟亞洲研究院華南理工大學微軟哈爾濱工業大學浙江大學伊利諾伊機器學習 2019-07-11

讓程序員走遍天下都不怕的十個算法，附教程分享

算法程序員 Google+ Google 電腦網絡安全 Facebook 數學技術搜索引擎智能手機數據挖掘 Linkedin YouTube 瀏覽器 Wi-Fi 歷史殺毒軟件社交網絡人工智能 2019-07-07

簡單瞭解十大真實算法的特點

首先在說這個之前，我們首先要搞明白，什麼是算法？算法就是任何明確定義的計算過程，它接受一些值或集合作為輸入，併產生一些值或集合作為輸出。因此，算法就是將輸...

算法約瑟夫·傅里葉技術電腦數學查爾斯·庫利數據結構瀏覽器人工智能搜索引擎數據挖掘 2019-07-04

漲姿勢：主宰這個世界的10種算法

出自linux中文社區鏈接：https://linux.cn/article-3125-1.html什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算...

算法 Linux Google 電腦技術 Google+ 數學網絡安全 Facebook 數據挖掘瀏覽器 Wi-Fi 智能手機搜索引擎 YouTube Linkedin 人工智能殺毒軟件社交網絡 2019-06-20

如何用機器學習算法來進行電影分類？(含Python代碼)

電影分析——K近鄰算法週末，小迪與女朋友小西走出電影院，回味著剛剛看過的電影。小迪：剛剛的電影很精彩，打鬥場景非常真實，又是一部優秀的動作片！小西：是嗎？...

算法 Python 機器學習愛情片動作片戀愛電腦技術歐幾里得數據挖掘無問西東前任攻略唐人街探案 2019-06-05

智能安防時代，算法與場景齊發展才是王道

隨著人工智能的不斷深入發展，傳統安防加速向智能安防轉變，智能安防帶來的紅利讓越來越多的企業開始接受、認可並積極向智能安防轉型，而智能安防與傳統安防最大的不...

算法人工智能技術大數據電腦 GPU 語音識別技術並行計算金融王道工程師交通體育數據挖掘 2019-05-24

“算法”也有價值觀？

文 | 金誠騰訊遊戲數據挖掘應用中心研究員“算法到底有沒有價值觀？”這是近年來互聯網相關產業界、學術界均關心的問題。無論是一線的算法研發人員，還是從事法律...

算法數據結構歐幾里得技術騰訊遊戲圍棋 Pascal 歷史幾何原本數據挖掘 ?? 2019-04-21

樸素貝葉斯?CART聚類算法？入門機器學習的最佳路徑是什麼？

作者：佚名本文轉自：CDA數據分析師1、什麼是機器學習？在開篇之前，想和大家聊一下機器學習和數據挖掘的關係。其實數據挖掘只是機器學習中涉獵的領域之一，機器...

算法人工智能數據挖掘網絡安全自然語言處理英語電腦計算複雜性理論 2018頭條記憶語音識別技術 2019-04-08

機器學習算法中的概率方法

雷鋒網 AI 科技評論按，本文作者張皓，目前為南京大學計算機系機器學習與數據挖掘所（LAMDA）碩士生，研究方向為計算機視覺和機器學習，特別是視覺識別和深...

人工智能算法數學設計數據挖掘 2019-04-08

AI算法可識別兒童早期腦癱丨零點報數

零點報數◆零點有數為您帶來#數據智能#前沿播報◆數據挖掘數據顯示，2018年中國跨境電商交易規模達到9.1萬億元，用戶規模超1億，預計2019年將達到10...

人工智能算法大數據物聯網技術數據挖掘電子商務廣西能源自然語言處理憑祥劉知遠體育 2019-04-06

打破認知：程序設計 = 算法 + 數據結構？

大家好，我是陳暘，也是極客時間《數據分析實戰 45 講》專欄作者。很榮幸接到極客時間的邀請，來到極客 Live 和大家分享關於“數據分析”的話題。這次分享...

數據結構算法程序設計程序員數據挖掘極客數學彙編語言工程師高考 2018頭條記憶 2019-04-05

推薦中...