物以類聚——數據挖掘中的聚類分析

數據挖掘 圖像處理 科技 一辰的遊樂場 2017-05-03

聚類分析是一種無監督的學習方法,它沒有任何先驗知識可用,主要用於進行數據探索,並給出數據描述,而且還可以作為數據預測和內容檢索等其它方面應用的起點。它是數據挖掘中廣為研究的課題之一,在統計數據分析、市場研究、模式識別、自然語言理解、圖像處理和數據壓縮等領域有廣泛的應用前景。

一、聚類分析的基本概念

類就是根據某種度量標準,對一個數據集中的數據進行分組,使得組內的數據儘可能相似而組間的數據儘可能不相似。即:組內的相似性越大,組間的差別越大,聚類效果越好。

它與分類問題的本質區別是:在分類問題中,我們知道訓練樣例的分類屬性值,而在聚類分析問題中,就需要我們從訓練樣例中找到這個分類屬性值。

物以類聚——數據挖掘中的聚類分析

聚類示意圖

二、代表性的聚類算法

前人已經提出了大量的聚類算法,然而沒有任何一種聚類算法可以普遍適用於揭示各種多維數據集所呈現出來的多種多樣結構。根據數據在聚類中的積聚規則以及應用這些規則的方法,可以將聚類算法大致分成基於劃分的方法、基於層次的方法、基於密度的方法、基於網格的方法、基於模型的方法和其它方法。

物以類聚——數據挖掘中的聚類分析

本文簡單描述了聚類的基本思想,列舉了聚類的常用算法,感興趣的小夥伴可以搜索研究一下相關算法,尤其是k-means和DBSCAN。

相關推薦

推薦中...