物以類聚——數據挖掘中的聚類分析

數據挖掘圖像處理科技一辰的遊樂場 2017-05-03

聚類分析是一種無監督的學習方法，它沒有任何先驗知識可用，主要用於進行數據探索，並給出數據描述，而且還可以作為數據預測和內容檢索等其它方面應用的起點。它是數據挖掘中廣為研究的課題之一，在統計數據分析、市場研究、模式識別、自然語言理解、圖像處理和數據壓縮等領域有廣泛的應用前景。

一、聚類分析的基本概念

類就是根據某種度量標準，對一個數據集中的數據進行分組，使得組內的數據儘可能相似而組間的數據儘可能不相似。即：組內的相似性越大，組間的差別越大，聚類效果越好。

它與分類問題的本質區別是：在分類問題中，我們知道訓練樣例的分類屬性值，而在聚類分析問題中，就需要我們從訓練樣例中找到這個分類屬性值。

物以類聚——數據挖掘中的聚類分析

聚類示意圖

二、代表性的聚類算法

前人已經提出了大量的聚類算法，然而沒有任何一種聚類算法可以普遍適用於揭示各種多維數據集所呈現出來的多種多樣結構。根據數據在聚類中的積聚規則以及應用這些規則的方法，可以將聚類算法大致分成基於劃分的方法、基於層次的方法、基於密度的方法、基於網格的方法、基於模型的方法和其它方法。

物以類聚——數據挖掘中的聚類分析

本文簡單描述了聚類的基本思想，列舉了聚類的常用算法，感興趣的小夥伴可以搜索研究一下相關算法，尤其是k-means和DBSCAN。

相關推薦

'數據挖掘｜喜馬拉雅音頻內容分析'

"筆者從整體架構到欄目設置，深入分析了喜馬拉雅的音頻內容，供大家學習參考。01 行業概述據艾媒網數據，2018年中國在線音頻市場用戶規模達4.25億人，預計到2020年，中國在線音頻用戶規模將達5.42億人。筆者認為，得益於知識付費的爆發，依託於音頻媒介的知識獲取方式，越來...

蜻蜓FM 數據挖掘愛奇藝音箱硬件創作者來直播網易雲音樂蜻蜓智能家居 QQ音樂技術播客自媒體騰訊視頻 Bilibili 穿戴設備鳳凰網騰訊QQ 人工智能知乎福特汽車掌閱音樂百度聲優智能手機讀書市場營銷小說天貓 TCL集團推薦技術網易 2019-09-14

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'版式設計中的“縱深感與動感”！`'

"文/王建輝版面設計又叫版式設計、編排設計，是在設計界面上為了達到某種需求，將有限的視覺元素進行有機的排列組合，理性化的表現個性思維的過程，是一種具有個人風格和藝術特色的視覺傳達方式。作為設計師，不僅要把美的感受和設計觀點傳達給觀眾，更重要的是要廣泛調動觀眾的閱讀激情，引...

設計設計師圖像處理電腦讀書體育技術良心國貨大賞 2019-09-14

'車牌識別是人工智能在城市交通中應用最理想的領域'

"目前在智能交通領域，人工智能分析及深度學習比較成熟的應用技術以車牌識別算法最為理想，雖然目前很多廠商都宣稱自己的車牌識別率已經達到了99%，但這也只是在標準卡口的視頻條件下再加上一些預設條件來達到的。在針對很多簡易卡口和卡口圖片進行車牌定位識別時，較好的車牌識別也很難達到...

人工智能算法技術交通深度學習硬件機器學習人臉識別圖像處理大數據設計工程師 2019-09-05

'企業計算中的機器人智能問答簡介'

"企業計算（enterprise computing）是一個新名詞。傳統的企業計算涵蓋企業信息系統的構建與應用範疇，如ERP軟件（企業資源規劃）、CRM軟件（客戶關係管理）、SCM軟件（供應鏈管理，即物流軟件）銀行證券軟件、財務軟件、電子商務/政務（包括各種網站）、數據倉庫...

技術機器人市場營銷軟件數據挖掘 IBM 微軟移動互聯網人生第一份工作財務軟件 2019-09-05

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'分享圖靈大佬總結的人工智能、機器學習、數據挖掘的區別'

"導語人工智能、機器學習、數據挖掘已然越來越火，我只是聽了個耳熟，真正學習才剛剛開始，簡單的說一下最近的學習成果：AI ML DM的區別。總體來說三者的區別是目的不同，但達到目的的方法有很大重疊之處。數據挖掘是用來理解事物的；機器學習是用來預測事物的；人工智能是用來生成行動...

人工智能數據挖掘阿蘭·圖靈算法數據庫技術電腦英語計算複雜性理論 2019-09-03

'數據挖掘知識點串燒：邏輯迴歸'

"作者 | DD-Kylin來源 | 木東居士0x00 前言我們知道，迴歸模型可以解決因變量為連續變量的問題，但是，如果因變量為分類變量的話，用迴歸的方法就行不通了。這個時候我們就得選擇用其他的分類方法了，如決策樹、隨機森林、SVM等。而本篇文章要說的邏輯迴歸也是一種很好的...

算法數據挖掘數學人工智能隨機森林板栗中標麒麟 2019-09-03

'中國軍團連續三年無緣TI冠軍，西恩刀塔到底出了什麼問題'

"OG戰隊創造了歷史，連續兩年奪得TI冠軍。在如此輝煌的戰績背後，是中國軍團連續三年無緣冠軍，西恩刀塔到底出了什麼問題？首先，這個鍋絕不能讓LGD自己背，這是整個中國DOTA圈的問題。今年不論是勝者組決賽還是敗者組決賽，LGD被連續兩次讓一追二，每次BO3的第三把都能看出，...

Dota 電子競技英雄聯盟S8 體育 Dota 2 足球德國人生第一份工作 NewBee 大學阿根廷世界盃足球賽數據挖掘歷史 2019-08-30

'什麼是數據挖掘，有哪些應用？終於有人講明白了'

"導讀：數據採集和存儲技術的迅速發展，加之數據生成與傳播的便捷性，致使數據爆炸性增長，最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析，對幾乎所有社會領域的決策都變得越來越重要：商業和工業、科學和工程、醫藥和生物技術以及政府和個人。然而，數據的數量（體積）、複雜...

數據挖掘技術生物技術大數據穿戴設備算法智能手機電子商務深度學習物理生物物聯網設計熱帶氣旋市場營銷地球掃描儀無人駕駛美國國家航空航天局 2019-08-28

'通過數據挖掘，我們研究了完美日記的兩大增長策略'

"如果你對美妝產品略知一二，就一定聽說過這個號稱“國貨之光”的品牌 - 完美日記。就在上個月，它又獲得了新一輪融資，估值已經超過10億美金。雖然完美日記主打的脣膏、脣釉、眼影等彩妝產品的市場競爭十分激烈，但下面這張銷量數據圖卻清晰的顯示，它正以驚人的增長速度殺出重圍：僅用8...

天貓數據挖掘動物國貨之光最in買手君良心國貨大賞眼影歐萊雅化妝百雀羚 4月吃什麼電子商務 SK-II 2019-08-27

'25萬億大市場！中國超500座“智慧城市”正建設中'

"來源 | 央視財經2019年《政府工作報告》提出，新型城鎮化要處處體現以人為核心，提高柔性化治理、精細化服務水平。作為推動信息化與城鎮化同步發展的載體，新型智慧城市的建設備受各方關注。國家發展和改革委員會提供的數據顯示：截至2018年8月，全國100%的副省級以上城市，包...

經濟技術大數據雲計算大學金融交通物聯網投資食品安全中國中央電視臺環境保護數據挖掘 2019-08-20

'在函數計算FunctionCompute中使用WebAssembly'

"稿件來源：阿里雲開發者社區（點擊下面“瞭解更多”查看原文）WebAssembly 是一種新的W3C規範，無需插件可以在所有現代瀏覽器中實現近乎原生代碼的性能。同時由於 WebAssembly 運行在輕量級的沙箱虛擬機上，在安全、可移植性上比原生進程更加具備優勢。同時資源消...

Rust JavaScript 瀏覽器 Linux 阿里雲計算 C語言 Mozilla Chrome 圖像處理 Java Node.js PHP Git Safari 技術 Java虛擬機編程語言虛擬機亞馬遜公司 Python 2019-08-18

'AI產品經理，要如何搭建AI數據中臺？'

"AI中臺是一個用來構建大規模智能服務的基礎設施，對企業需要的算法模型提供了分步構建和全生命週期管理的服務，讓企業可以將自己的業務不斷下沉為一個個算法模型，以達到複用、組合創新、規模化構建智能服務的目的。什麼是AI數據中臺？在以往，企業數據管理都以傳統的IT架構為基礎。當技...

人工智能技術產品經理算法數據挖掘設計人生第一份工作 2019-08-14

'Mob研究院 · 版號限發影響下的中國手遊用戶偏好及發展趨勢'

"2018年3月，遊戲版號停止審核 2018年12月，遊戲版號重啟審核時隔半年遊戲行業最大的大事件仍是“版號限發” 請跟隨Mob研究院的腳步帶你從頭盤點“遊戲版號限發的那些事兒” 作者：崔凡、梅凱磊（實習生）、謝丹青（實習...

數據挖掘設計 2019-08-09

'python數據挖掘需要學的內容'

"1、Pandas庫的操作Panda是數據分析特別重要的一個庫，我們要掌握以下三點：· pandas 分組計算;· pandas 索引與多重索引;索引比較難，但是卻是非常重要的· pandas 多表操作與數據透視表2、numpy數值計算numpy數據計算主要應用是在數據挖掘...

Python 數據挖掘可視化技術機器學習算法深度學習 2019-08-09

'堅持的力量——車市寒冬中，為什麼我們看好東南汽車'

"1968年的夏天，奧運會在墨西哥首都墨西哥城舉行，這個城市海拔2259米，空氣含氧量比平原低30％。那一年，坦桑尼亞和很多非洲兄弟國家一樣，首次加入奧林匹克的大家庭。30歲的馬赫瓦里，是坦桑尼亞唯三的運動員之一。特殊的地理條件讓這這一屆奧運會的馬拉松比賽變得平淡無味。晚上...

東南汽車技術海馬汽車原汁原味的德系SUV 設計海馬坦桑尼亞奧林匹克運動會三菱集團馬拉松可視化技術三菱得利卡英國墨西哥投資大數據夏利轎車工程師非洲田徑數據挖掘 2019-08-06

'線性代數在數據科學中的十個強大應用'

"概覽線性代數為各種各樣的數據科學算法或應用提供支撐我們將介紹十種強大的線性代數應用示例，他可以幫助你成為更好的數據科學家我們將這些應用細分到各個領域--基礎機器學習（ML），降維，自然語言處理(NLP)和計算機視覺(CV)介紹線性代數與數據科學的關係就像羅賓與蝙蝠俠。這位...

算法圖像處理機器學習自然語言處理深度學習歐幾里得 Python 數學 2019-08-06

'如何快速學習做圖軟件，應用於平時的新媒體運營中？'

"我們總說，新媒體人必須是全才。“刀槍劍戟斧鉞鉤叉”，樣樣都得會。簡單點兒的就是用Photoshop做個圖、Premiere剪輯視頻，複雜一點兒可能還需要用jsp（編程語言）寫個H5。然而，在一般情況下，新媒體人不需要在這些軟件上下太多功夫，瞭解基本功能，就足夠我們平時文章...

圖像處理美圖秀秀軟件 Photoshop Premiere 百度 JSP 編程語言傳媒文化 2019-07-31

'「AI不惑境」深度學習中的多尺度模型設計'

"大家好，這是專欄《AI不惑境》的第七篇文章，講述計算機視覺中的多尺度問題。進入到不惑境界，就是向高手邁進的開始了，在這個境界需要自己獨立思考。如果說學習是一個從模仿，到追隨，到創造的過程，那麼到這個階段，應該躍過了模仿和追隨的階段，進入了創造的階段。從這個境界開始，講述的...

人工智能算法設計圖像處理卡爾·高斯盜夢空間 2019-07-26

推薦中...