日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )

發(fā)布時(shí)間:2025/6/17 51 豆豆

文章目錄

        • I . K-Means 算法在實(shí)際應(yīng)用中的缺陷
        • II . K-Means 初始中心點(diǎn)選擇不恰當(dāng)
        • III . K-Means 優(yōu)點(diǎn) 與 弊端
        • IV . 基于密度的聚類方法
        • V . 基于密度的聚類方法 DBSCAN 方法
        • VI . ε\varepsilonε-鄰域
        • VII . 核心對(duì)象
        • VIII . 直接密度可達(dá)
        • IX . 密度可達(dá)
        • X . 密度連接



I . K-Means 算法在實(shí)際應(yīng)用中的缺陷



1 . K-Means 算法中中心點(diǎn)選擇是隨機(jī)的 : 隨機(jī)地選擇聚類分組的中心點(diǎn) ;


① 選擇實(shí)點(diǎn) : 可以選擇實(shí)點(diǎn) ( 當(dāng)前現(xiàn)有的樣本值 ) 作為聚類中心點(diǎn) ;

② 生成虛點(diǎn) : 也可以選擇生成虛點(diǎn) ( 任意位置模擬出一個(gè)樣本點(diǎn) ) 作為中心點(diǎn) ;


2 . 必須事先設(shè)置聚類分組個(gè)數(shù) KKK 值 : 開始的時(shí)候并不知道將數(shù)據(jù)集分成幾組能達(dá)到最佳的分組效果 ;


① 學(xué)習(xí)出 KKK 值 : 使用其它聚類方法 , 先將數(shù)據(jù)集學(xué)習(xí)一遍 , 確定聚類分組個(gè)數(shù) ;

② 多次聚類 : 選取不同的 KKK 聚類分組個(gè)數(shù) , 然后看取什么值可以達(dá)到最好的聚類分組效果 ;


3 . 最佳實(shí)踐 : 運(yùn)行多次 K-Means 方法 , 選取不同的 KKK 值 , 以及不同的聚類分組個(gè)數(shù) ;



II . K-Means 初始中心點(diǎn)選擇不恰當(dāng)



下面的數(shù)據(jù)集 , 如果使用肉眼觀察 , 選擇的中心點(diǎn)是如下綠色的點(diǎn) , 但是如果隨機(jī)選擇中心點(diǎn) , 加入選擇的很差 , 如下圖中的紅色點(diǎn)作為中心點(diǎn) , 那么迭代之后的聚類分組如下圖所示 , 明顯該聚類分組不是最佳分組 ;


① 肉眼觀察 3-NN 聚類分組 比較合適的中心點(diǎn)距離 :


② 隨機(jī)選擇中心點(diǎn)后的聚類分組 : 這是隨機(jī)選擇的分組 , 顯然這不是最佳分組 ;


選擇的初始的中心點(diǎn)太垃圾 , 會(huì)導(dǎo)致多次迭代 , 即使算法收斂 , 多次迭代計(jì)算的聚類分組不再改變 , 得到結(jié)果也可能是不準(zhǔn)確的 ;


這是基于距離 ( 劃分 ) 的聚類方法的固有缺陷 ;



III . K-Means 優(yōu)點(diǎn) 與 弊端



1 . K-Means 好處是 : 簡(jiǎn)單 , 容易理解 , 性能較高 , 能很快計(jì)算出聚類結(jié)果 ;


2 . K-Means 弊端 : 只能找出球形的聚類分組 , 對(duì)異常點(diǎn) 和 噪音 非常敏感 , 如果有一個(gè)異常點(diǎn) , 就會(huì)導(dǎo)致聚類分組不準(zhǔn)確 , 魯棒性差 ;


3 . K-Means 無(wú)法處理的情況 : 如下面的聚類 , 將不同形狀的樣本分開 , 需要識(shí)別出凹形的模式 , K-Means 無(wú)法完成該聚類操作 ;




IV . 基于密度的聚類方法



1 . 基于密度的聚類方法 :


① 方法迭代原理 : 相鄰區(qū)域的密度 , 即 單位空間內(nèi) 數(shù)據(jù)樣本 點(diǎn)的個(gè)數(shù) , 超過(guò)用戶定義的某個(gè)閾值 , 那么該區(qū)域需要進(jìn)行聚類 , 如果低于某個(gè)閾值 , 聚類停止 , 算法終止 ;

② 聚類分組前提 : 如果想要將多個(gè) 數(shù)據(jù)樣本 劃分到一個(gè)聚類分組中 , 那么這些樣本的分布必須達(dá)到一定的密度 , 即在某個(gè)范圍大小區(qū)域內(nèi) , 該樣本點(diǎn)必須達(dá)到一定的數(shù)目 ; 具體的數(shù)量個(gè)數(shù) 根據(jù)空間大小 , 和 密度計(jì)算出來(lái) ;


2 . 示例 : 如 , 先定義好 , 如果進(jìn)行聚類 , 必須在 1×11 \times 11×1 平面內(nèi)至少有 161616 個(gè)樣本 , 給定一個(gè)區(qū)域內(nèi)的點(diǎn) , 如果該區(qū)域的樣本密度值大于 161616 , 就劃分到一個(gè)聚類中 ; 如果該區(qū)域是 0.5×0.50.5\times 0.50.5×0.5 大小 , 那么只需要有 444 個(gè)就能進(jìn)行聚類 , 如果這個(gè)區(qū)域是 2×22 \times 22×2 , 必須有 646464 個(gè)樣本才能聚類成一組 ;


3 . 基于密度聚類好處 : 該方法可以排除 異常點(diǎn) , 噪音數(shù)據(jù) , 魯棒性很好 ;


4 . 基于密度的聚類方法涉及到的參數(shù) : 密度閾值 , 聚類區(qū)域范圍 ;



V . 基于密度的聚類方法 DBSCAN 方法



DBSCAN 方法 :


① 全稱 : Density Based Spatial Clustering of Application with Noise , 基于密度兼容噪音的空間聚類應(yīng)用 算法 ;

② 聚類分組原理 : 數(shù)據(jù)樣本 pppqqq 存在 密度連接 關(guān)系 , 那么 pppqqq 這兩個(gè)樣本應(yīng)該劃分到同一個(gè)聚類中 ;

③ 噪音識(shí)別原理 : 數(shù)據(jù)樣本 nnn 與 任何樣本 不存在 密度連接 關(guān)系 , 那么 nnn樣本 就是噪音數(shù)據(jù) ;



VI . ε\varepsilonε-鄰域



1 . ε\varepsilonε-鄰域 : 這是一個(gè)范圍定義 , 給定一個(gè)數(shù)據(jù)樣本對(duì)象 , 以該樣本為中心 , 指定一個(gè)半徑 ε\varepsilonε , 形成一個(gè)范圍區(qū)域 , 組成了該樣本的 ε\varepsilonε-鄰域 ;


2 . ε\varepsilonε-鄰域示例 : 如果是二維平面該范圍區(qū)域是一個(gè)圓 , 如果是三維平該范圍區(qū)域是一個(gè)球 ;


3 . ε\varepsilonε-鄰域圖示 : 下面的紅點(diǎn)就是樣本點(diǎn) , 以紅點(diǎn)為圓心 , 以 ε\varepsilonε 為半徑的 淺綠色區(qū)域 , 就是 ε\varepsilonε-鄰域 ;





VII . 核心對(duì)象



1 . 核心對(duì)象 : 在一個(gè)樣本對(duì)象 CCCε\varepsilonε-鄰域 中 , 有超過(guò)一定 閾值 ( 最小數(shù)量 ) 的 樣本對(duì)象分布 , 那么該樣本對(duì)象 CCC 就是核心對(duì)象 ;


2 . 核心對(duì)象 圖示 : 如果該閾值 ( 最小數(shù)量 ) 設(shè)置成 555 , 那么該 ε\varepsilonε-鄰域 中有 666 個(gè)點(diǎn) , 超過(guò)了最小閾值 , 紅色 的 中心點(diǎn) 數(shù)據(jù)樣本 是 核心對(duì)象 ;



VIII . 直接密度可達(dá)



1 . 直接密度可達(dá) : Directly Density Reachable ( DDR ) ;


① 概念 : 樣本 ppp 是核心對(duì)象 ( 以 ppp 為中心 ε\varepsilonε-鄰域 中超過(guò)閾值個(gè)數(shù)的樣本 ) , 樣本 qqq 在其 ε\varepsilonε-鄰域 中 , 那么 稱為 ppp 直接密度可達(dá) qqq ; 注意方向 p→qp \rightarrow qpq , ppp 出發(fā)直接密度可達(dá) qqq ;

② 直接密度可達(dá)有兩個(gè)條件 : ① 起點(diǎn)必須是核心對(duì)象 , ② 終點(diǎn)必須在起點(diǎn)的 ε\varepsilonε-鄰域 中 ;


2 . 直接密度可達(dá)的注意點(diǎn) :


① 單向概念 : 注意該概念是單向的概念 , ppp 樣本出發(fā) , 可以 直接密度可達(dá) qqq , 反過(guò)來(lái)是不行的 ; qqq 出發(fā)不一定能到 ppp ;

② 直接密度可達(dá) 起點(diǎn) : 只有 核心對(duì)象 才有資格 發(fā)起密度可達(dá) 概念 , 不是核心對(duì)象 , 沒(méi)有資格作為起點(diǎn) ;

③ 直接密度可達(dá) 性質(zhì) : 如果 ppp 是核心對(duì)象 , 那么從 ppp 出發(fā) , 可以直接密度可達(dá)其 ε\varepsilonε-鄰域 中所有的樣本點(diǎn) ;

④ 如果 ppp 不是核心對(duì)象 , 那么沒(méi)有直接密度可達(dá)的概念 ;


3 . 圖示 : 紅色點(diǎn) ppp 是核心對(duì)象 , qqq 在其 ε\varepsilonε-鄰域 中 , ppp 直接密度可達(dá) qqq ;



IX . 密度可達(dá)



1 . 密度可達(dá) : ppp 密度可達(dá) qqq , 存在一個(gè) 由 核心對(duì)象 組成的鏈 , ppp 直接密度可達(dá) p1p_1p1? , p1p_1p1? 直接密度可達(dá) p2p_2p2? , ?\cdots? , pn?1p_{n-1}pn?1? 直接密度可達(dá) pnp_npn? , 此時(shí)稱為 ppp 密度可達(dá) qqq ;


2 . 鏈 上的核心對(duì)象要求 : 鏈的起點(diǎn) , 和經(jīng)過(guò)的點(diǎn) , 必須是核心對(duì)象 , 鏈的最后一個(gè)點(diǎn) , 可以是任意對(duì)象 ;


3 . 密度可達(dá) 與 直接密度可達(dá)區(qū)別 : 密度可達(dá) 與 直接密度可達(dá) 的概念在于 是直接可達(dá) , 還是 間接可達(dá) ;


4 . 密度可達(dá)圖示 : ppp 直接密度可達(dá) qqq , qqq 直接密度可達(dá) ttt , ppp 密度可達(dá) ttt ;



X . 密度連接



1 . 密度連接 : pppqqq 兩個(gè)樣本 , 存在一個(gè)中間樣本對(duì)象 OOO , OOOppp密度可達(dá) 的 , OOOqqq密度可達(dá) 的 ;


2 . 密度連接方向 : OOO 可以密度連接 pppqqq 樣本 , 但是 pppqqq 不一定能走到 OOO , 它們可能不是核心對(duì)象 ;


3 . 核心對(duì)象要求 : OOO 以及到 樣本 ppp 或者 樣本 qqq 中間的樣本都必須是核心對(duì)象 , 但是 pppqqq 兩個(gè)對(duì)象不要求是核心對(duì)象, 它們可以是普通的樣本點(diǎn) ;


4 . 密度連接圖示 : 下圖中 , 樣本點(diǎn) OOO 密度可達(dá) pppqqq , 那么 pppqqq 是密度連接的 ; 其中 p,qp, qp,q 不是核心對(duì)象 , O,p1,p2,q1,q2O , p_1 , p_2 , q_1 , q_2O,p1?,p2?,q1?,q2? 是核心對(duì)象 ;

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。