日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘中聚类算法概述

發布時間:2024/1/23 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘中聚类算法概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 聚類方法概述

聚類方法是將物理或抽象對象的集合組成為由類似的對象組成的多個類的過程被成為聚類。由聚類所組成的簇是一組數據對象的集合,這些對象與同一簇中的對象彼此類似,與其他簇中的對象相異。在許多應用中,可以將一些簇中的數據對象作為一個整體來對待。

聚類是研究數據間邏輯上或物理上的相互關系的技術,其分析結果不僅可以揭示數據間的內在聯系與區別,還可以為進一步的數據分析與知識發現提供重要依據。它是數據挖掘技術中的重要組成部分。作為統計學的重要研究內容之一,聚類分析具有堅實的理論基礎,并形成了系統的方法學體系。

數據挖掘中聚類算法的應用很廣泛。在商務上,聚類能幫助市場分析人員從客戶基本庫中發現不同的客戶群,并且用不同的購買模式來刻畫不同的消費群體的特征。在生物學上,聚類能用于幫助推導植物和動物的種類,基因和蛋白質的分類,獲得對種群中固定結構的認識。聚類在地球觀測數據中相似地區的確定,根據房屋的類型、價值和位置對一個城市中房屋的分類發揮作用。聚類也能用來對web上的文檔進行分類,以發現有用的信息。聚類分析能作為一種獨立的工具來獲得數據分布的情況,觀察每個簇的特點,并對某些特定的節點進一步分析。此外,聚類還可以作為其他方法的預處理步驟。

數據聚類正在蓬勃的發展,有貢獻的領域包括數據挖掘,統計學,機器學習,空間數據庫技術,生物學以及市場營銷。現在數據聚類分析已經成為一個非常活躍的研究課題。

作為統計學的一個分支,聚類分析已經被廣泛地研究若干年,主要集中在基于距離的聚類分析。基于k-means(k-平均值)、k-medoids(k-中心點)和其他一些的聚類分析工具已經被加入到許多統計分析的軟件中,例如S-Plus、SPSS和SAS。

在機器學習領域,聚類分析是無指導學習的例子。與分類不同,聚類不需要依賴事先定義的類和帶符號的訓練實踐。所以聚類分析是觀察式學習,而不是示例式學習。

在數據挖掘領域,研究工作已經集中在為大型數據庫的有效和實際的聚類分析尋找適當的方法。活躍的研究課題集中在聚類方法的可伸縮性,方法對聚類復雜形狀和類型的數據的有效性,高維聚類分析技術,以及針對大型數據庫中混合數值和分類數據的聚類方法。

由于研究的需要,現在將重點放在數據挖掘中聚類方法的應用上。數據挖掘中對聚類的典型要求如下:

(1)可伸縮性。一般的聚類算法使用魚規模小于200的數據集合上,而現在很多大型數據庫的數據量達到百萬個,這就要求聚類有好的可伸縮性。

(2)處理不同類型屬性的能力。應用的多元化,可能要求一個聚類能處理多種數據類型,像二元類型、分類/標稱類型、序數型數據,或者這些類型的混合。

(3)發現任意形狀的聚類。基于距離的聚類算法趨向于發現相近尺度和密度的球狀簇。但一個簇的形狀是任意的,所以就要求聚類能發現這些被忽略的聚類。

(4)用于決定輸入參數的領域知識的最小化。由于聚類結果對輸入參數的要求很敏感,但參數通常很難確定,特別是對于高維對象的數據來說。所以輸入參數的質量直接影聚類的結果,這就加重了用戶的負擔。

(5)處理噪聲數據的能力。絕大多數數據集中存在很多孤立點、空缺、未知數據或錯誤數據。一些聚類算法對于這樣的數據敏感,導致低質量聚類結果。

(6)對輸入數據的順序不敏感。

(7)高維性。一個數據庫或是數據倉庫可能只包含若干維,很多聚類算法只涉及兩到三維。人類對于三維以內的數據有判斷性,高于三維的數據聚類的挑戰性很高,數據可能很稀疏,也可能高度偏斜。

(8)基于約束的聚類。現實世界可能要在約束條件下進行聚類,這就要求既要滿足客戶特定的約束,又具有良好聚類特性的數據分組。

(9)可理解行和可用性。用戶希望聚類結果是可解釋的,可理解的,并且是可用的。也就是,聚類與最后的應用相聯系。應用目標對聚類方法的影響也是一個重要的課題。

2 聚類方法基礎

2.1 聚類過程簡述

聚類是一個將數據集劃分為若干組或簇的過程,使得同一類的數據對象之間的相似度較高,而不同類的數據對象之間的相似度較低。聚類問題的關鍵是把相似的事物聚集在一起。如圖2-1給出了一個聚類任務遵循的一般步驟:

圖 2-1 聚類的一般步驟(圖傳不上去)

聚類的一般步驟的細節如下:

(1)特征選擇。必須適當地選擇特征,盡可能多的包含任務關心的信息。在特征中,信息多余減少和最小化是主要目的。

(2)相似性度量。用于定量度量兩個特征向量之間如何“相似”或“不相似”。一個簡單的度量如歐氏距離經常被用來反應兩個特征向量之間的非相似性。

(3)聚類算法。已經選擇了合適的相似性度量,這步涉及到選擇特定的聚類算法,用于揭示數據集中的聚類結構。

(4)結果驗證。一旦用聚類算法得到結果,就需要驗證其正確性。

(??5)結果判定。在許多情況下,應用領域的專家必須用其他實驗數據和分析判定聚類結果,最后做出正確的結論。

聚類分析有很多種算法,每種算法都是優化了某一方面或某幾方面的特征。聚類算法的優劣標準本身就是一個值得研究的問題,對于聚類的評價有不同的標準。現在通用的聚類算法都是從幾個方面來衡量的,而沒有完全使用量化的客觀標準。下面給出六條關于聚類的主要標準:

(1)處理大的數據集的能力。

(2)處理任意形狀,包括有間隙的嵌套的數據的能力。

(3)算法處理的結果與數據輸入的順序是否相關,也就是說算法是否獨立于數據輸入順序。

(4)處理數據噪聲的能力。

(5)是否需要預先知道聚類個數,是否需要用戶給出領域知識。

(6)算法處理有很多屬性數據的能力,也就是對數據維數是否敏感。

對于一個聚類算法可以從以上幾個方面綜合考慮。

2.2 聚類方法的數據結構

基于內存的聚類算法有以下兩種代表性的數據結構:

數據矩陣(對象與變量結構):

(1)???????它用p個變量表現n個對象,這種數據結構是關系表的形式,或看成n×p的矩陣。

x11 … x 1f … x1p

?:??:?:??:?:

xi1 … xif ?…xip

?:? :??:??:?:

xn1 … xnf … xnp

(2)???????相異度矩陣(對象-對象結構):存儲n個對象兩兩之間的近似性,表現形式是一個n×n維的矩陣。

0

d(2,1)0

d(3,1)d(3,2)0

??:???????:???????:

d(n,1)d(n,2)… … 0

這里d(i,j)是對象i和對象j之間相異性的量化表示,通常為非負值,當兩個對象i,j越相似,其值越接近0;反之,則值越大。

2.2.1 區間標度變量

???區間標度變量是一個粗略線性標度的連續變量。用來計算相異度d(i,j),其距離度量包括歐幾里德距離,曼哈坦距離和明考斯基距離。

???首先實現數據的標準化,給定一個變量f的度量值,可以進行一下轉化:

(1)計算平均的絕對偏差Sf

Sf? =(|x1f-mf|+|x2f-mf|+……+|xnf-mf|)/n

這里x1f,……,xnf是f的n個度量值,mf是f的平均值。

(2)計算標準化的度量值:

Zif = (xif-mf)/sf

???我們知道對象之間的相異度是基于對象間的距離來計算的。最常用的度量方法是歐幾里德距離,其形式如下:

d(i,j) =(|xi1-xj1|2+|xi2-xj2|2+……+|xip-xjp|2)1/2

這里i=(xi1,xi2,……,xip)和j=(xj1,xj2,……,xjp)是兩個p維的數據對象。

曼哈坦距離的公式如下:

d(i,j)=|xi1-xj1|+|xi2-xj2|+……|xip-xjp|

上面的兩個公式必須滿足下面的條件:

?

d(i,j)≧0:距離非負。

d(i,i)=0:對象與自身的距離為0。

d(i,j)=d(j,i):距離函數具有對稱性。

d(i,j)≦d(i,h)+d(h,j):對象i到對象j的距離小于等于途經其他任何對象h的距離之和。

?

???明考斯基距離是以上兩中距離計算公式的概括,其具體的公式如下:

d(i,j) =(|xi1-xj1|q+|xi2-xj2|q+……+|xip-xjp|q)1/q

當q=1時該公式就是歐幾里得距離公式;當q=2時,是曼哈坦距離公式。

2.2.2二元變量

二元變量只有0、1兩個狀態,0表示變量為空,1表示該變量存在。

?

?

對象j

?

?

1

0

Sum

對象i

1

q

r

q+r

0

s

t

s+t

Sum

q+s

r+t

p

p=q+r+s+t

二元變量中基于對稱的二元變量的相似度稱為恒定相似度,這里有最著名的簡單匹配系數來評價兩個對象之間的相似度,其定義如下:

d(i,j)=(r+s)/(q+r+s+t)

基于不對稱的二元變量的相似度稱為非恒定相似度,最著名的評價系數是Jaccard系數,形式如下:

d(i,j)=(r+s)/(q+r+s)

這里負匹配的數目t被認為是不重要的,所以省略

2.2.3 標稱型、序數型和比例標度型變量

(1)標稱變量

標稱變量是二元變量的推廣,具有多于兩個的狀態值。如,draw_color是一的標稱變量,狀態有很多:紅色、黃色、綠色、棕色、黑色、白色……。

標稱變量之間的相異度可以用簡單匹配方法來計算:

d(i,j)=(p-m)/p

這里m是匹配的數目,即對i和j取值相同的變量數目,而p是全部變量的數目。p是全部變量的數目。

(2)序數型變量

序數型變量分離散的序數型變量和連續的序數型變量。其相似度的計算可以用2.1中提到的任何一個距離公式計算。

(3)比例標度型變量

比例標度型變量在非線性的標度取正的度量值,如

AeBt或Ae-Bt

這里A、B是正常數。

(4)混合型變量

現實中在一個系統數據庫中可能有標度變量、二元變量、標稱變量、序數型變量或比例標度變量。

可取的方法是將所有的變量一起處理,只進行一個聚類分析。一種技術將不同類型的變量組合在單個相異度矩陣中,把所有意義的變量轉換到共同的至于區間[0.0,1.0]上。

3 主要聚類方法的分類

目前聚類算法有很多種。算法的選擇取決于數據的類型、聚類的目的和應用。由于各種聚類算法之間存在很多交集,它們之間并不是完全獨立的,所以很難對聚類算法進行嚴格意義上的劃分,現就聚類算法的發展進程分為兩類:傳統的聚類算法和新發展的聚類算法。具體分類如圖3-1.

?

3.1 傳統聚類算法

3.1.1 層次方法

層次法對給定的數據對象集合進行層次似的分解。按層次分解的形成方式,層次法可分為凝聚和分裂兩大類。凝聚的方法,也稱為自底向上的方法,一開始將每個對象作為單獨的一個類,然后相繼地合并相近的類,直到所有的類合并為一個(層次的最上層),或者達到一個終止條件為止。分裂的方法,也稱為自頂向下的方法,一開始將所有的對象置于一個類中。在迭代的每一步中,類被分裂為更小的類,直到每個類只包含一個對象,或者達到一個終止條件為止。在凝聚或者分裂層次聚類方法中,通常以用戶定義的希望得到的類的數目作為結束條件。在類的合并或分裂過程中,需要考察類間的距離。類間距離的度量廣泛采用如下四種方法:

最小距離:dmin(Ci,Cj)=minp∈Ci,p'∈Cj|p- p' |

最大距離:dmax(Ci,Cj)=maxp∈Ci,p'∈Cj|p- p' |

平均值距離:dmcan(Ci,Cj)=|mi- mj|

平均距離:

層次方法(Hierarchical Method)中代表算法有BIRCH、CURE、ROCK、CHAMELEON算法等。

3.1.2 劃分方法

給定一個包含n個數據對象的數據集,劃分法構建數據的k個劃分,每個劃分表示一個類,并且k≤n。同時滿足如下的要求:①每個組至少包含一個對象;②每個對象屬于且僅屬于一個組。給定要構建的劃分的數目k,創建一個初始劃分。然后采用一種迭代的重定位技術,嘗試通過對象在劃分間移動來改進劃分。判定一個好的劃分的一般準則是:在同一個類中的對象之間盡可能“接近”或相關,在不同類中的對象之間盡可能“遠離”或不同,即使下列準則函數最小:

?

式中的E是數據集中所有對象的平方誤差的總和;mi是類Ci的平均值(或中心點),p是數據空間中的數據對象(p和mi都是多維的)。為了達到全局最優,基于劃分的聚類要求窮舉所有可能的劃分。基于劃分的方法(Partitioning Method),其代表算法有K-MEANS、K-MEDOIDS、大型數據庫劃分方法(CLARANS)等。

3.1.3 基于密度的方法

絕大多數劃分方法基于對象之間的距離進行聚類,這樣的方法只能發現球狀的類,而在發現任意形狀的類上有困難。因此,出現了基于密度的聚類方法,其主要思想是:只要鄰近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。也就是說,對給定類中的每個數據點,在一個給定范圍的區域內必須至少包含某個數目的點。這樣的方法可以過濾“噪聲”數據,發現任意形狀的類。但算法計算復雜度高,一般為O(n2),對于密度分布不均的數據集,往往得不到滿意的聚類結果。其代表算法有DBSCAN、OPTICS和DENCLUE等。

3.1.4 基于網格的方法

基于網格的方法把對象空間量化為有限數目的單元,形成一個網格結構。所有的聚類操作都在這個網格結構(即量化空間)上進行。這種方法的主要優點是它的處理速度很快,其處理速度獨立于數據對象的數目,只與量化空間中每一維的單元數目有關。但這種算法效率的提高是以聚類結果的精確性為代價的。它的代表算法有STING、CLIQUE、WAVE- CLUSTER等。

3.1.5 基于模型的方法

基于模型的聚類算法為每簇假定了一個模型,尋找數據對給定模型的最佳擬合。一個基于模型的算法可能通過構建反應數據點空間分布的密度函數來定位聚類。它也基于標準的統計數字自動決定聚類的數目,老呂噪聲數據或孤立點,從而產生健壯的聚類方法。基于模型的聚類試圖優化給定的數據和某些數據模型之間的適應性。這樣的方法經常是基于這樣的假設:數據是根據潛在的概率分布生成的。基于模型的方法主要有兩類:統計學方法和網絡神經方法。其中,統計學方法有COBWEB算法,網絡神經方法有SOM算法。

3.1.6 基于約束的方法

真實世界中的聚類問題往往是具備多種約束條件的,然而由于在處理過程中不能準確表達相應的約束條件、不能很好地利用約束知識進行推理以及不能有效利用動態的約束條件,使得這一方法無法得到廣泛的推廣和應用。這里的約束可以是對個體對象的約束,也可以是對聚類參數的約束,它們均來自相關領域的經驗知識。該方法的一個重要應用在于對存在障礙數據的二維空間數據進行聚類。COD(Clustering with Ob2structed Distance)就是處理這類問題的典型算法,其主要思想是用兩點之間的障礙距離取代了一般的歐氏距離來計算其間的最小距離。

3.2 新發展的聚類算法

3.2.1 基于模糊的聚類方法

傳統的聚類分析是一種“硬”聚類(CrispClustering)方法,隸屬關系采用經典集合論中的要么屬于要么不屬于來表示,事物之間的界限有著截然不同的區別。然而,現實生活中很多事物特征無法給出一個精確的描述,例如把人按身高分為“高個子的人”,“矮個子的人”,“不高不矮的人”。然而,多高算高?多矮算矮?這樣的分類判別是經典分類解決不了的問題。模糊聚類分析方法為解決此類問題提供了有力的分析工具。該方法把隸屬關系的取值從籠{0,1}二值邏輯擴展到[0,1]區間,從而更合理地表示事物之間存在的中介性。

目前國內外對模糊聚類分析的研究非常重視,參與這個學科研究的國度遍布全球,研究人員與日俱增,模糊新產品不斷問世,模糊技術不斷被應用到高精尖領域,基礎理論研究與實際應用研究也取得了豐碩的成果。模糊數學目前正沿著理論研究和應用研究兩個方向迅速發展。理論研究主要是經典數學概念的模糊化。由于模糊集自身的層次結構,使得這種理論研究更加復雜,當然也因而更具吸引力。目前已形成了模糊拓撲、模糊代數、模糊分析、模糊測度及模糊計算機等模糊數學分支。應用研究主要是對模糊性之內在規律的探討,對模糊邏輯及模糊信息處理技術的研究。模糊數學的應用范圍已遍及自然科學與社會科學的幾乎所有的領域。特別是在模糊控制、模式識別、聚類分析、系統評價、數據庫、系統決策、人工智能及信息處理等方面取得了顯著的成就。

伴隨著模糊聚類理論的形成、發展和深化,針對不同的應用,人們提出了很多模糊聚類算法,比較典型的有基于目標函數的模糊聚類方法、基于相似性關系和模糊關系的方法、基于模糊等價關系的傳遞閉包方法、基于模糊圖論的最小支撐樹方法,以及基于數據集的凸分解、動態規劃和難以辨別關系等方法。其中最受歡迎的是基于目標函數的模糊聚類方法,該方法把聚類歸結成一個帶約束的非線性規劃問題,通過優化求解獲得數據集的模糊劃分和聚類。該方法設計簡單,解決問題的范圍廣,還可以轉化為優化問題而借助經典數學的非線性規劃理論求解,并易于在計算機上實現。因此,隨著計算機的應用和發展,基于目標函數的模糊聚類算法成為新的研究熱點。在基于目標函數的聚類算法中,FCM類型算法的理論最為完善、應用最為廣泛。FCM類型的算法最早是從“硬”聚類目標函數的優化中導出的。為了借助目標函數法求解聚類問題,人們利用均方逼近理論構造了帶約束的非線性規劃函數,從此類內平方誤差和(within—???GrouPssumofSquaredError,WGSS)J1,成為聚類目標函數的普遍形式。為極小化該目標函數而采取Pikard迭代優化方案就是著名的硬。一均值(Hard c-means,HCM)算法。后來Dunn把WGSS函數Jl擴展到J2,即類內加權平均誤差和函數。Bezdek又引入了一個參數m,把J2推廣到一個目標函數的無限簇,即形成了人們所熟知的FCM算法。從此,奠定了FCM算法在模糊聚類中的地位。

3.2.2基于粒度的聚類方法

從表面上看,聚類和分類有很大差異———聚類是無導師的學習,而分類是有導師的學習。具體說來,聚類的目的是發現樣本點之間最本質的抱團性質的一種客觀反映;分類需要一個訓練樣本集,由領域專家指明,而分類的這種先驗知識卻常常是主觀的。如果從信息粒度的角度來看,就會發現聚類和分類的相通之處: 聚類操作實際上是在一個統一粒度下進行計算的;分類操作是在不同粒度下進行計算的。在粒度原理下,聚類和分類的相通使得很多分類的方法也可以用在聚類方法中。作為一個新的研究方向,雖然目前粒度計算還不成熟,尤其是對粒度計算語義的研究還相當少,但是相信隨著粒度計算理論本身的不斷完善和發展,在今后幾年,它將在數據挖掘中的聚類算法及其相關領域得到廣泛應用。

3.2.3 量子聚類

在現有的聚類算法中,聚類數目一般需要事先指定,如Kohenon自組織算法、K-means算法和模糊K-means聚類算法。然而,在很多情況下類別數是不可知的,而且絕大多數聚類算法的結果都依賴于初值,即使類別數目保持不變,聚類的結果也可能相差很大。受物理學中量子機理和特性啟發,可以用量子理論解決此類問題。一個很好的例子就是基于相關點的Pott自旋和統計機理提出的量子聚類模型。它把聚類問題看做一個物理系統。并且許多算例表明,對于傳統聚類算法無能為力的幾種聚類問題,該算法都得到了比較滿意的結果。

量子力學研究的是粒子在量子空間中的分布, 聚類是研究樣本在尺度空間中的分布情況。很多文獻對量子聚類(Quantum clustering,QC)算法進行了深入的研究, 并應用于生物信息學的研究。QC 算法不需要訓練樣本, 是一種無監督學習的聚類方法。又因為它是借助勢能函數, 從勢能能量點的角度來確定聚類中心的, 所以它同樣是基于劃分的。實踐已經證明QC 算法有效。

3.2.4 核聚類

核聚類方法增加了對樣本特征的優化過程,利用Mercer核把輸入空間的樣本映射到高維特征空間,并在特征空間中進行聚類。核聚類方法是普適的,并在性能上優于經典的聚類算法,它通過非線性映射能夠較好地分辨、提取并放大有用的特征,從而實現更為準確的聚類;同時,算法的收斂速度也較快。在經典聚類算法失效的情況下,核聚類算法仍能夠得到正確的聚類。

近年來核方法被用在聚類分析中,Tax將支持向量方法用于數據域描述(即單一分類)中,提出了基于Gauss核的SVDD(Supprot Vector DomainDeseription)算法,Ben-Hen提出了一種新的無監督非參數型的聚類算法一支持向量聚類(support vector Clustering,SVC)。SVC算法主要分為兩個部分:基于支持向量機訓練和聚類標識,其中SVM訓練部分負責新知識模型的訓練,包括Gaussian核寬度系數的優化、Hilbert空間最小包絡超球體半徑的計算lagrange乘子的計算以及有界支持向量(Bounded Support Vectors,BSVs)與支持向量的選取,再通過DFS(Depth-firstSearch)算法根據關聯矩陣進行聚類分配。

Girolaln和焦李成等在結合核方法和聚類算法方面也做了開創性工作。目前已有的聚類算法只能對一些典型分布的樣本奏效,比較經典的聚類方法有傳統的k-means方法、模糊c均值聚類方法和Kohonen自組織神經網絡等,這些方法都沒有對樣本的特征進行優化,而是直接利用樣本的特征進行聚類。

因此上述這些方法的有效性很大程度上取決于樣本的分布情況。例如一類樣本散布較大,而另一類散布較小的情況,這些方法效果就比較差;如果樣本分布更加混亂,則聚類的結果就會面目全非。通過引入核方法把輸入空間的數據非線性映射到高維特征空間,增加了數據點的線性可分概率,即擴大數據類之間的差異,在高維特征空間達到線性可聚的目的,從而提高聚類的質量。近年來對核聚類的積極研究,涌現了許多基于核的聚類算法,諸如支持向量聚類,基于核的模糊聚類算法,基于模糊核聚類的SVM多類分類方法,一種硬劃分的核聚類算法,而謝維信等人又進一步提出了模糊核聚類算法,并將模糊核聚類算法推廣到分類屬性的數據中。而核聚類的研究為非線性數據的有效處理帶來了突破口,也拓寬了本領域的研究范圍。

3.2.5 譜聚類

傳統的聚類算法,如k-means算法、EM算法等都是建立在凸球形的樣本空間上,但當樣本空間不為凸時,算法會陷入局部最優。為了能在任意形狀的樣本空間上聚類,且收斂于全局最優解,學者們開始研究一類新型的聚類算法,稱為譜聚類算法(Spectral Clustering Algorithm)。該算法首先根據給定的樣本數據集定義一個描述成對數據點相似度的親合矩陣,并計算矩陣的特征值和特征向量,然后選擇合適的特征向量聚類不同的數據點。譜聚類算法最初用于計算機視覺、VLSI 設計等領域,最近才開始用于機器學習中,并迅速成為國際上機器學習領域的研究熱點。

譜聚類算法建立在圖論中的譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優劃分問題,是一種點對聚類算法,對數據聚類具有很好的應用前景。但由于其涉及的理論知識較多,應用也還處于初級階段,因此國內這方面的研究報道非常少。

4 常用的聚類算法

4.1BIRCH算法

BIRCH算法是一種綜合的層次聚類方法。它引入了兩個概念:聚類特征和聚類特征樹(CF樹),用于概括聚類描述。這些結構輔助聚類方法在大型數據庫中取得很高的速度和可伸縮性。BIRCH算法對增量或動態聚類也非常有效。一個聚類特征(CF)是一個三元組,給出對象子聚類的信息匯總描述。假設某個子聚類中有N個d維的點或對象{Oi},則該子聚類的CF如下

?

這里N是子類中點的數目,LS是N個點的線性和(即???),SS是數據點的平方和(即????)。

一個CF樹是高度平衡的樹,它存儲了層次聚類的聚類特征。根據定義,樹中非葉子節點有后代或“孩子”,他們存儲了其孩子的CF的總和,即匯總了關于其孩子的聚類信息。一個CF樹有兩個參數:分支因子B和閥值T。分支因子定義了每個非葉子節點孩子的最大數目,而閥值參數給出了存儲在樹的葉子節點中的子聚類的最大直徑。這兩個參數影響了結果樹的大小。

總結

以上是生活随笔為你收集整理的数据挖掘中聚类算法概述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。