机器学习--最基础的最常用的聚类算法
基于劃分聚類(lèi)算法(partition clustering)
K-means:是一種典型的劃分聚類(lèi)算法,它用一個(gè)聚類(lèi)的中心來(lái)代表一個(gè)簇,即在迭代過(guò)程中選擇的聚點(diǎn)不一定是聚類(lèi)中的一個(gè)點(diǎn),該算法只能處理數(shù)值型數(shù)據(jù)。
優(yōu)點(diǎn):計(jì)算時(shí)間短,速度快。結(jié)果容易解釋,一般聚類(lèi)效果還算不錯(cuò);
缺點(diǎn):對(duì)異常值非常敏感,需要提前確定好k值
其他劃分聚類(lèi)算法如下:
基于層次聚類(lèi)算法
CURE:采用抽樣技術(shù)先對(duì)數(shù)據(jù)集D隨機(jī)抽取樣本,再采用分區(qū)技術(shù)對(duì)樣本進(jìn)行分區(qū),然后對(duì)每個(gè)分區(qū)局部聚類(lèi),最后對(duì)局部聚類(lèi)進(jìn)行全局聚類(lèi)。
優(yōu)點(diǎn):采用隨機(jī)抽樣與分割相結(jié)合的辦法來(lái)提高算法的空間和時(shí)間效率,并且在算法中用了堆和K-d樹(shù)結(jié)構(gòu)來(lái)提高了算法效率,使其可以高效的處理大量數(shù)據(jù)。
缺點(diǎn):對(duì)異常數(shù)據(jù)比較脆弱。
其他基于層次聚類(lèi)算法如下:
基于密度聚類(lèi)算法
DBSCAN:DBSCAN算法是一種典型的基于密度的聚類(lèi)算法,該算法采用空間索引技術(shù)來(lái)搜索對(duì)象的鄰域,引入了“核心對(duì)象”和“密度可達(dá)”等概念,從核心對(duì)象出發(fā),把所有密度可達(dá)的對(duì)象組成一個(gè)簇。
優(yōu)點(diǎn):聚類(lèi)簇的形狀沒(méi)有偏倚,不需要輸入要?jiǎng)澐值木垲?lèi)個(gè)數(shù)。
缺點(diǎn):DBSCAN算法對(duì)參數(shù)Eps及Minpts非常敏感,且這兩個(gè)參數(shù)很難確定。
其他基于密度聚類(lèi)算法如下:
從以下幾個(gè)方面對(duì)幾種常用的聚類(lèi)算法進(jìn)行綜合性能評(píng)價(jià),評(píng)價(jià)結(jié)果如下:
總結(jié)
以上是生活随笔為你收集整理的机器学习--最基础的最常用的聚类算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 谷歌旗下自动驾驶公司 Waymo 已裁员
- 下一篇: 程序员最喜欢用的在线IDE代码编译器,什