日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

聚类概念

發(fā)布時間:2025/3/15 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚类概念 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
俗話說:“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術(shù)引入到數(shù)值分類學形成了聚類分析。聚類分析內(nèi)容非常豐富, 有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預報法等。

聚類分析計算方法主要有如下幾種:

1. 分裂法(partitioning methods):給定一個有N個元組或者紀錄的數(shù)據(jù)集,分裂法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1)每一個分組至少包含一個數(shù)據(jù)紀錄;(2)每一個數(shù)據(jù)紀錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的算法有: K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

2. 層次法(hierarchical methods):這種方法對給定的數(shù)據(jù)集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數(shù)據(jù)紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有: BIRCH算法、CURE算法、CHAMELEON算法等;

3. 基于密度的方法(density-based methods):基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的知道思想就是,只要一個區(qū)域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;

4. 基于網(wǎng)格的方法(grid-based methods):這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

5. 基于模型的方法(model-based methods):基于模型的方法給每一個聚類假定一個模型,然后去尋找能個很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。

總結(jié)

以上是生活随笔為你收集整理的聚类概念的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。