“機器學習”技術之聚類分析概述和常用方法總結

æºå¨å¦ä¹ æ°æ®ææ ææ¯ å°AIå¨è¯¢ 小AI諮詢 2017-11-08

今天給大家概述一下機器學習中經常用到的一個技術—聚類分析，使大家對聚類分析有一個全面大致的瞭解。

聚類分析介紹

聚類是數據挖掘的重要工具，根據數據間的相似性將數據分成多個類，每類中數據應儘可能相似。從機器學習的觀點來看，類相當於隱藏模式，尋找類是無監督學習過程
聚類算法通常有分層聚類、分割聚類、基於密度的聚類、基於柵格的聚類、字符屬性聯合聚類、高維數據聚類和神經網絡聚類等
在聚類算法選擇時，不僅要考慮所要處理的數據屬性的種類，也要考慮算法的抗干擾性和時間複雜度等

聚類分析

聚類分析的過程

數據預處理——標準化
構造關係/距離矩陣——親疏關係的描述
聚類——根據不同方法進行聚類
確定最佳分類——類別數

數據預處理

指標變量的量綱不同或數量級相差很大，為了使這些數據能放到一起加以比較，常需做變換。

Z-Scores標準化變換

“機器學習”技術之聚類分析概述和常用方法總結

Z-Scores標準化變換

Range –1 to 1：極差標準化變換

“機器學習”技術之聚類分析概述和常用方法總結

極差標準化變換

Range 0 to 1：極差正規化變換 / 規格化變換

“機器學習”技術之聚類分析概述和常用方法總結

極差正規化變換 / 規格化變換

Mean of 1：均值為1

“機器學習”技術之聚類分析概述和常用方法總結

均值為1

Standard deviation of 1：方差為1

“機器學習”技術之聚類分析概述和常用方法總結

方差為1

構造關係/距離矩陣

歐氏(Euclidean)距離

未考慮指標間的相關性和各變量方差的不同。

“機器學習”技術之聚類分析概述和常用方法總結

歐氏(Euclidean)距離

切比雪夫(Chebychev)距離

“機器學習”技術之聚類分析概述和常用方法總結

切比雪夫(Chebychev)距離

明氏(Minkowski)距離

“機器學習”技術之聚類分析概述和常用方法總結

明氏(Minkowski)距離

夾角餘弦

“機器學習”技術之聚類分析概述和常用方法總結

夾角餘弦

Pearson相關係數

“機器學習”技術之聚類分析概述和常用方法總結

Pearson相關係數

Block：絕對值距離

“機器學習”技術之聚類分析概述和常用方法總結

絕對值距離

聚類方法的選擇

層次聚類/譜系聚類
K-Means聚類、K-Medoids聚類
模糊聚類、圖論聚類、SOM聚類等

感興趣的讀者可以閱讀作者之前寫的文章瞭解詳細內容和具體案例。

《常用數據挖掘算法從入門到精通第二章 K-means聚類算法》

《常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法》

《常用數據挖掘算法從入門到精通第四章SOM神經網絡聚類（上）》

《常用數據挖掘算法從入門到精通第四章SOM神經網絡聚類（下）》

聚類個數的確定

任何類都必須在臨近各類中是突出的，即各類重心間距離必須極大
確定的類中，各類所包含的元素都不要過分地多
分類的數目必須符合實際使用目的
若採用幾種不同的聚類方法處理，則在各自的聚類圖中應發現相同的類

相關推薦

深度學習之深度殘差網絡

深度殘差網絡是2015年提出的深度卷積網絡，一經出世，便在ImageNet中斬獲圖像分類、檢測、定位三項的冠軍。我們都知道增加網絡的寬度和深度可以很好的提高網絡的性能，深的網絡一般都比淺的的網絡效果好，比如說一個深的網絡A和一個淺的網絡B，那A的性能至少都能跟B一樣，為什麼...

æºå¨å¦ä¹ æ·±åº¦å¦ä¹ åºæ°æºè½ 2017-11-28

Spring Boot學習筆記之使用WebSocket實現簡單聊天功能

聲明：本文參考：江南一點雨的博客文章：在Spring Boot框架下使用WebSocket實現消息推送和在Spring Boot框架下使用WebSocket實現聊天功能今天給大家介紹一下如何在spring boot中使用websocket，實現一個簡單的聊天功能。webso...

æç« ææ¯ å°èå¨ç©å 2017-11-28

Excel操作之乾坤大挪移-二維數據轉換為一維數據的兩種方法

大家好！今天給大家分享的是Excel二維數據轉換為一維數據的方法。平常工作中會有這樣的需求情形，如圖：這就是我們所說的二維數據轉換一維數據。一、數據透視法。1、Alt+D+P，調出我們的【數據透視表和數據透視圖嚮導】界面；2、點擊【多重合並計算數據透視表】，下面的類型選擇【...

Excel é¼ æ ææ¯ å°å¾·EXCELæ°æ®åæ 2017-11-23

Excel VBA之調用對話框，使你的代碼可視化，值得學習

=================================================================================|| 版本號：Excel2013. ||====================InputBox函數和Input...

Excel å¯è§å ææ¯ å¿ä¸ææ£µç½æ¨æ 2017-11-23

R語言機器學習理論和實戰第二章 Logistic迴歸模型

這一章和《TensorFlow 機器學習理論與實戰第二章 Logistic迴歸模型》以及《Python 機器學習理論與實戰第二章 Logistic迴歸模型》使用的是同樣的數據集，只不過分別用 R 語言， TensorFlow， Scikit-Learn 實現，前兩章內容...

æºå¨å¦ä¹ Rè¯è¨ æ³°å¦å°¼åå· Python ææ¯ å°AIå¨è¯¢ 2017-11-22

乾貨｜掌握機器學習數學基礎之優化「1」（重點知識）

推薦閱讀時間：8~15min主要內容（下劃線部分）：1、計算複雜性與NP問題2、上溢和下溢3、導數，偏導數及兩個特殊矩陣4、函數導數為零的二三事5、方向導數和梯度6、梯度有什麼用7、梯度下降法8、牛頓法1計算複雜性與NP問題算法的複雜性：現實中大多數問題都是離散的數據集，為...

Java併發學習之四種線程創建方式的實現與對比

線程創建的幾種方式在併發編程中，最基本的就是創建線程了，那麼一般的創建姿勢是怎樣的，又都有些什麼區別一般來講線程創建有四種方式:繼承Thread實現Runnable接口實現Callable接口，結合 FutureTask使用利用該線程池ExecutorService、Cal...

ç¼ç¨è¯è¨ Java ææ¯ Javaä¸ç°ç° 2017-11-22

機器學習：人工神經網絡ANN

神經網絡是從生物領域自然的鬼斧神工中學習智慧的一種應用。人工神經網絡（ANN）的發展經歷的了幾次高潮低谷，如今，隨著數據爆發、硬件計算能力暴增、深度學習算法的優化，我們迎來了又一次的ANN雄起時代，以深度學習為首的人工神經網絡，又一次走入人們的視野。感知機模型percept...

用機器學習拯救“人工智障”，谷歌開放Chatbase分析平臺

李杉李林編譯整理量子位出品 | 公眾號 QbitAI當你做了一個網站、App、遊戲，肯定會馬上想到要加上統計分析功能，這早就成了互聯網產品的標配組件，產品迭代、用戶運營，都離不開它。如果你做的，是個聊天機器人呢？聊天機器人，或者說Chatbot，在國內還基本是科技公司...

æºå¨å¦ä¹ Google Viber æºå¨äºº äº§åè¿è¥ éåä½ 2017-11-21

Jquery常用屬性和方法

Jquery常用屬性和方法 1.點我消失1 $(document).ready(function(){2 $("p").click(function(){ // 只要點擊p標籤就會消失親自試一試3 $(this).hide();4 });5 }); 2.隱藏和消失$(...

jQuery CSS HTML ææ¯ WeBå·¥ç¨ç® 2017-11-20

Google推出移動機器學習的程序，我們的手機變成他們的工具！恐怖

Android工程副總裁Dave Burke宣佈在2017年Google I / O上推出TensoGoogle今天推出了TensorFlow Lite，為應用程序開發人員提供了在移動設備上部署AI的能力。 Google流行的開源AI程序的移動版本首次在I / O開發者大會...

æºè½ææº æºå¨å¦ä¹ Google äººå·¥æºè½ Gmail åé¸¡åé±æ²¹ 2017-11-19

一文讀懂機器學習及其在遙感中的應用

一直以來，從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一，其分類技術是遙感應用系統中的關鍵技術，遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進，探索新的方法，以不斷提高遙感圖像自動分類算法的精...

æºå¨å¦ä¹ é¥æ éæºæ£®æ å¯è§å Vi AIä¸å½ 2017-11-19

機器學習初學者必須知道的十大算法

摘要：還在為不知道學什麼算法入門機器學習感到頭疼？本文作者通過自身的學習向初學者介紹十大機器學習（ML）算法，並附有數字和實例以便於理解。哈佛商業評論稱數據科學家是21世紀最性感的工作。所以，對於那些ML剛剛開始的人來說，這篇博客機器學習算法工程師需要知道的十大算法是非常...

Scikit-Learn機器學習實踐：垃圾短信識別

感謝關注天善智能，走好數據之路↑↑↑歡迎關注天善智能，我們是專注於商業智能BI，人工智能AI，大數據分析與挖掘領域的垂直社區，學習，問答、求職一站式搞定！機器學習與垃圾短信識別前不久，我們使用NLTK的貝葉斯分類模型垃圾對短信數據進行機器學習的垃圾短信識別。其實除了使用NL...

良心GitHub項目：各種機器學習任務的頂級結果（論文）彙總

今日，號：SZCODI小編在 Github 上發現了一個良心項目：RedditSota 統計了各種機器學習任務的最頂級研究成果（論文），方便大家索引查閱。對此項目做了介紹。項目地址：https://github.com//RedditSota/state-of-the-ar...

初中學習方法歸納：好成績來自對細節的掌握

極客數學幫整理中小學學習方法，告訴你在日常的學習生活中可以注意哪些方面的小細節，從而可以使成績更上一層樓，一起來看看吧。1、隨身攜帶學習卡片不積跬步，無以至千里，不積小流，無以成江海。將一些學習內容製成學習卡片隨身攜帶，利用閒碎的時間進行復習，效果顯著。2、做標記符號對以下...

谷歌發佈TensorFlow Lite，支持設備內機器學習模型的低延遲推理

安妮編譯整理量子位出品 | 公眾號 QbitAI還得從半年前說起。今年5月的谷歌I/O大會上，安卓工程副總裁Dave Burke宣佈將推出一個專門為移動設備優化的TensorFlow，稱為TensorFlow Lite。△ 安卓工程副總裁Dave Burke自谷歌公佈這...

第四範式：基於大規模機器學習的推薦系統PPT

隨著時代變遷的廣告業，從廣播、電視業廣告的輝煌，到互聯網門戶時代的banner廣告和狂轟亂炸的EDM，再到了搜索引擎和移動互聯網時代的推薦位廣告，隨著人們的數據可被記錄並且計算，也隨之產生了計算廣告學這門新興學科。從廣撒網的廣告形式到精準地捕捉到用戶的需求，並且呈現給用戶更...

æºå¨å¦ä¹ æ¨èææ¯ ç§»å¨äºèç½ çµååå¡ PowerPoint è¿è¥æèºäºº 2017-11-15

Java學習之反射的使用姿勢詳解

反射的學習使用日常的學習工作中，可能用到反射的地方不太多，但看看一些優秀框架的源碼，會發現基本上都離不開反射的使用；因此本篇博文將專注下如何本片博文佈局如下:反射是什麼，有什麼用，可以做什麼如何使用反射實例：利用反射方式，獲取一個類的所有成員變量的name及值通過反射方式，...

ç¼ç¨è¯è¨ Java ææ¯ Javaä¸ç°ç° 2017-11-15

對於機器學習，到底該選擇哪種編程語言

開發者到底應該學習哪種編程語言才能獲得機器學習或數據科學這類工作呢？這是一個非常重要的問題。我們在許多論壇上都有討論過。現在，我可以提供我自己的答案並解釋原因，但我們先看一些數據。畢竟，這是機器學習者和數據科學家應該做的事情：看數據，而不是看觀點。讓我們看一些數據。我將在I...

ç¼ç¨è¯è¨ Java æºå¨å¦ä¹ Python Scala ä¼ææ¯çèå¤§ç· 2017-11-15

推薦中...