sklearn自学指南(part37)--DBSCAN
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
聚類
DBSCAN
DBSCAN算法將簇視為由低密度區(qū)域分隔的高密度區(qū)域。由于這種相當(dāng)通用的觀點(diǎn),DBSCAN發(fā)現(xiàn)的簇可以是任何形狀,而k-means假設(shè)集群是凸形的。
DBSCAN的核心組件是核心樣本的概念,即在高密度區(qū)域內(nèi)的樣本。因此,聚類是一組彼此接近的核心樣本(通過(guò)一些距離度量度量)和一組接近核心樣本(但本身不是核心樣本)的非核心樣本。
該算法有兩個(gè)參數(shù), min_samples 和 eps,它們定義了dense(密集)的含義。更高的 min_samples 或更低的 eps 表明需要更高的密度來(lái)形成簇。
更正式的定義是,我們將核心樣本定義為數(shù)據(jù)集中的一個(gè)樣本,在eps距離內(nèi)存在min_samples其他樣本,它們被定義為核心樣本的鄰居。這告訴我們,核心樣本是向量空間的密集區(qū)域。
一個(gè)簇是核心樣本的集合,它可以通過(guò)遞歸地獲取一個(gè)核心樣本,或找到它(它們)的所有鄰居是核心樣本,等等來(lái)構(gòu)建。
一個(gè)簇也有一組非核心樣本,這些樣本是簇中核心樣本的鄰居,但它們本身不是核心樣本。直觀地說(shuō),這些樣本是在一個(gè)簇的邊緣。
根據(jù)定義,任何核心樣本都是集群的一部分。任何不是核心樣本的樣本&#x
總結(jié)
以上是生活随笔為你收集整理的sklearn自学指南(part37)--DBSCAN的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: flash引导图层怎么用 flash用引
- 下一篇: sklearn自学指南(part38)-