聚類分析是一種無監督的學習方法,它沒有任何先驗知識可用,主要用於進行數據探索,並給出數據描述,而且還可以作為數據預測和內容檢索等其它方面應用的起點。它是數據挖掘中廣為研究的課題之一,在統計數據分析、市場研究、模式識別、自然語言理解、圖像處理和數據壓縮等領域有廣泛的應用前景。
一、聚類分析的基本概念
類就是根據某種度量標準,對一個數據集中的數據進行分組,使得組內的數據儘可能相似而組間的數據儘可能不相似。即:組內的相似性越大,組間的差別越大,聚類效果越好。
它與分類問題的本質區別是:在分類問題中,我們知道訓練樣例的分類屬性值,而在聚類分析問題中,就需要我們從訓練樣例中找到這個分類屬性值。
二、代表性的聚類算法
前人已經提出了大量的聚類算法,然而沒有任何一種聚類算法可以普遍適用於揭示各種多維數據集所呈現出來的多種多樣結構。根據數據在聚類中的積聚規則以及應用這些規則的方法,可以將聚類算法大致分成基於劃分的方法、基於層次的方法、基於密度的方法、基於網格的方法、基於模型的方法和其它方法。
本文簡單描述了聚類的基本思想,列舉了聚類的常用算法,感興趣的小夥伴可以搜索研究一下相關算法,尤其是k-means和DBSCAN。
相關推薦
'數據挖掘|喜馬拉雅音頻內容分析'
"筆者從整體架構到欄目設置,深入分析了喜馬拉雅的音頻內容,供大家學習參考。01 行業概述據艾媒網數據,2018年中國在線音頻市場用戶規模達4.25億人,預計到2020年,中國在線音頻用戶規模將達5.42億人。筆者認為,得益於知識付費的爆發,依託於音頻媒介的知識獲取方式,越來...
'在函數計算FunctionCompute中使用WebAssembly'
"稿件來源:阿里雲開發者社區(點擊下面“瞭解更多”查看原文)WebAssembly 是一種新的W3C規範,無需插件可以在所有現代瀏覽器中實現近乎原生代碼的性能。同時由於 WebAssembly 運行在輕量級的沙箱虛擬機上,在安全、可移植性上比原生進程更加具備優勢。同時資源消...
'Mob研究院 · 版號限發影響下的中國手遊用戶偏好及發展趨勢'
"2018年3月,遊戲版號停止審核 2018年12月,遊戲版號重啟審核 時隔半年 遊戲行業最大的大事件仍是“版號限發” 請跟隨Mob研究院的腳步 帶你從頭盤點“遊戲版號限發的那些事兒” 作者:崔凡、梅凱磊(實習生)、謝丹青(實習...
推薦中...