MachineLearning(10)-聚类
聚類(lèi)
- 1.K-mean
- 2.系統(tǒng)聚類(lèi)
- 3.DBSCAN聚類(lèi)算法
聚類(lèi):無(wú)監(jiān)督學(xué)習(xí),將相似的樣本聚為一類(lèi)。核心如何定義相似。
分類(lèi):有監(jiān)督學(xué)習(xí),依據(jù)分類(lèi)準(zhǔn)則,將樣本劃分為不同的類(lèi)。核心分類(lèi)器的設(shè)計(jì)(KNN)
聚類(lèi):根據(jù)彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類(lèi),使得同一類(lèi)的事物具有高度的相似性。
1.K-mean
K-meas 算法的優(yōu)點(diǎn):簡(jiǎn)介快速,時(shí)間復(fù)雜度O(nkt)
K-meas 算法的缺點(diǎn):需要預(yù)先知道/設(shè)定聚類(lèi)數(shù)量k
2.系統(tǒng)聚類(lèi)
自底向上的一種方法:初始時(shí),各個(gè)樣本自成一類(lèi),依據(jù)定義的相似度,每次合并一個(gè)類(lèi),不斷向上合并直至到達(dá)設(shè)定了類(lèi)別數(shù)
樣本間距離:歐幾里得距離、均方距離、曼哈頓距離(1范數(shù))、余弦距離、最大距離(無(wú)窮范數(shù))
類(lèi)間距離:最大距離、最小距離、平均距離、離差平方和距離
系統(tǒng)聚類(lèi)的優(yōu)點(diǎn):靈活定義的距離對(duì)昂使得他有廣泛的適用性
系統(tǒng)聚類(lèi)的缺點(diǎn):時(shí)間復(fù)雜度高,一般為o(n3)o(n^3)o(n3)。
3.DBSCAN聚類(lèi)算法
DBSCAN:density-based spatial clustering of applications with noise
將類(lèi)定義為:密度相連的點(diǎn)的最大集合,通過(guò)在樣本空間中不斷尋找最大集合從而完成聚類(lèi)
有幾個(gè)基本定義:?\epsilon?領(lǐng)域,核心對(duì)象,直接密度可達(dá),密度可達(dá),密度相連
密度可達(dá)是直接密度可達(dá)的傳遞閉包
能在帶噪聲的樣本空間中發(fā)現(xiàn)任意形狀的聚類(lèi)并排除噪聲
DBSCAN聚類(lèi)的優(yōu)點(diǎn):能夠過(guò)濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點(diǎn)。不需要制定聚類(lèi)數(shù),可以過(guò)濾噪聲,時(shí)間復(fù)雜度o(nlog?n)o(n\log n)o(nlogn)
(概念稍微復(fù)雜點(diǎn)的一個(gè)聚類(lèi)算法)
總結(jié)
以上是生活随笔為你收集整理的MachineLearning(10)-聚类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: C++(STL):02---tuple容
- 下一篇: const的思考