當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】基于层次的聚类方法 ( 聚合层次聚类 | 划分层次聚类 | 族间距离 | 最小距离 | 最大距离 | 中心距离 | 平均距离 | 基于层次聚类步骤 | 族半径 )

發布時間：2025/6/17 编程问答 26 豆豆

文章目錄

- - - 基于層次的聚類方法簡介
    - 基于層次的聚類方法概念
    - 聚合層次聚類圖示
    - 劃分層次聚類圖示
    - 基于層次的聚類方法切割點選取
    - 族間距離概念
    - 族間距離使用到的變量
    - 族間距離最小距離
    - 族間距離最大距離
    - 族間距離中心點距離
    - 族間距離平均距離
    - 基于層次聚類 ( 聚合層次聚類 ) 步驟
    - 基于層次聚類 ( 聚合層次聚類 ) 算法終止條件
    - 族半徑計算公式
    - 基于層次聚類總結

基于層次的聚類方法簡介

1 . 基于層次的聚類方法 : 將數據集樣本對象排列成聚類樹 , 在指定的層次 ( 切割點 ) 進行切割 , 切割點時刻的聚類分組 , 就是最終需要的聚類分組 ; 也就是這個切割點的切割的時刻 , 互相關聯的樣本 , 劃分到一個聚類分組中 ;

2 . 基于層次聚類方法的兩種方式 :

① 聚合層次聚類 : 開始時 , 每個對象都是一個聚類分組 ( 原子聚類 ) , 根據聚類之間的相似性 , 對原子聚類逐漸合并 , 最終會合并成一個聚類 ; 其本質是 由多個聚類分組切割成成少數聚類分組 ;

② 劃分層次聚類 : 開始時 , 所有的樣本都在一個聚類中 , 根據聚類間相似性 , 對聚類進行劃分 , 最終每個樣本都會被劃分成一個聚類分組 ( 原子聚類 ) ; 本質是 由少數聚類分組劃分成多個聚類分組 ;

基于層次的聚類方法概念

1 . 基于層次的聚類方法概念 : 將數據集樣本對象排列成樹結構 , 稱為聚類樹 , 在指定的層次 ( 步驟 ) 上切割數據集樣本 , 切割后時刻的聚類分組就是聚類算法的聚類結果 ;

2 . 基于層次的聚類方法 : 一棵樹可以從葉子節點到根節點 , 也可以從根節點到葉子節點 , 基于這兩種順序 , 衍生出兩種方法分支 , 分別是 : 聚合層次聚類 , 劃分層次聚類 ;

3 . 聚合層次聚類 ( 葉子節點到根節點 ) : 開始時 , 每個樣本對象自己就是一個聚類 , 稱為 原子聚類 , 然后根據這些樣本之間的 相似性 , 將這些樣本對象 ( 原子聚類 ) 進行合并 ;

常用的聚類算法 : 大多數的基于層次聚類的方法 , 都是 聚合層次聚類 類型的 ; 這些方法從葉子節點到根節點 , 逐步合并的原理相同 ; 區別只是聚類間的相似性計算方式不同 ;

4 . 劃分層次聚類 ( 根節點到葉子節點 ) : 開始時 , 整個數據集的樣本在一個總的聚類中 , 然后根據樣本之間的相似性 , 不停的切割 , 直到完成要求的聚類操作 ;

5 . 算法性能 : 基于層次的聚類方法的時間復雜度為 $O(N^2)$ , 如果處理的樣本數量較大 , 性能存在瓶頸 ;

聚合層次聚類圖示

1 . 聚合層次聚類圖示 :

① 初始狀態 : 最左側五個數據對象 , 每個都是一個聚類 ;

② 第一步 : 分析相似度 , 發現 $a, b$ 相似度很高 , 將 ${a ,b\}$ 分到一個聚類中 ;

③ 第二步 : 分析相似度 , 發現 $d, e$ 相似度很高 , 將 ${d, e\}$ 分到一個聚類中 ;

④ 第三步 : 分析相似度 , 發現 $c$ 與 $d, e$ 相似度很高 , 將 $c$ 數據放入 ${d, e\}$ 聚類中 , 組成 ${c,d, e\}$ 聚類 ;

⑤ 第四步 : 分析相似度 , 此時要求的相似度很低就可以將不同的樣本進行聚類 , 將前幾步生成的兩個聚類 , 合并成一個聚類 ${a, b, c, d, e\}$ ;

2 . 切割點說明 : 實際進行聚類分析時 , 不會將所有的步驟走完 , 這里提供四個切割點 , 聚類算法進行聚類時 , 可以在任何一個切割點停止 , 使用當前的聚類分組當做聚類結果 ;

① 切割點 $1$ : 在切割點 $1$ 停止 , 會得到 $5$ 個聚類分組 , ${a\}$ , ${b\}$ , ${c\}$ , $ozvdkddzhkzd\{d\}$ , ${e\}$ ;

② 切割點 $2$ : 在切割點 $2$ 停止 , 會得到 $4$ 個聚類分組 , ${a, b\}$ , ${c\}$ , $ozvdkddzhkzd\{d\}$ , ${e\}$ ;

③ 切割點 $3$ : 在切割點 $3$ 停止 , 會得到 $3$ 個聚類分組 , ${a, b\}$ , ${c\}$ , ${d, e\}$ ;

④ 切割點 $4$ : 在切割點 $4$ 停止 , 會得到 $2$ 個聚類分組 ; ${a, b\}$ , ${c, d, e\}$ ;

⑤ 走完整個流程 : 會得到 $1$ 個聚類分組 , ${a, b ,c, d, e\}$ ;

劃分層次聚類圖示

1 . 劃分層次聚類圖示 :

① 初始狀態 : 最左側五個數據對象 , 屬于一個聚類 ;

② 第一步 : 分析相似度 , 切割聚類 , 將 ${c,d, e\}$ 與 ${a ,b\}$ 劃分成兩個聚類 ;

③ 第二步 : 分析相似度 , 將 ${c,d, e\}$ 中的 ${c\}$ 與 ${d, e\}$ 劃分成兩個聚類 ;

④ 第三步 : 分析相似度 , 將 ${d, e\}$ 拆分成 $ozvdkddzhkzd\{d\}$ 和 ${e\}$ 兩個聚類 ;

⑤ 第四步 : 分析相似度 , 將 ${a ,b\}$ 拆分成 ${a\}$ 和 ${b\}$ 兩個聚類 , 至此所有的數據對象都劃分成了單獨的聚類 ;

① 切割點 $1$ : 在切割點 $1$ 停止 , 會得到 $1$ 個聚類分組 , ${a, b ,c, d, e\}$ ;

② 切割點 $2$ : 在切割點 $2$ 停止 , 會得到 $2$ 個聚類分組 ; ${a, b\}$ , ${c, d, e\}$ ;

③ 切割點 $3$ : 在切割點 $3$ 停止 , 會得到 $3$ 個聚類分組 , ${a, b\}$ , ${c\}$ , ${d, e\}$ $ ;

④ 切割點 $4$ : 在切割點 $4$ 停止 , 會得到 $4$ 個聚類分組 , ${a, b\}$ , ${c\}$ , $ozvdkddzhkzd\{d\}$ , ${e\}$ ;

⑤ 走完整個流程 : 會得到 $5$ 個聚類分組 , ${a\}$ , ${b\}$ , ${c\}$ , $ozvdkddzhkzd\{d\}$ , ${e\}$ ;

基于層次的聚類方法切割點選取

1 . 算法終止條件 ( 切割點 ) : 用戶可以指定聚類操作的算法終止條件 , 即上面圖示中的切割點 , 如 :

① 聚類的最低個數 : 聚合層次聚類中 , $n$ 個樣本 , 開始有 $n$ 個聚類 , 逐步合并 , 聚類個數逐漸減少 , 當聚類個數達到最低值 $m i n$ , 停止聚類算法 ;

② 聚類最高個數 : 劃分層次聚類中 , $n$ 個樣本 , 開始有 $1$ 個聚類 , 逐步劃分 , 聚類個數逐漸增加 , 當聚類個數達到最大值 $m a x$ , 停止聚類算法 ;

③ 聚類樣本的最低半徑 : 聚類的數據樣本范圍不能無限擴大 , 指定一個閾值 , 只有將該閾值內的樣本放入一組 ; 半徑指的是所有對象距離其平均點的距離 ;

2 . 切割點回退問題 : 切割點一旦確定 , 便無法回退 ; 這里以聚合層次聚類為例 :

① 處于切割點 $4$ : 如已經執行到了步驟三 , 此時處于切割點 $4$ , 聚類分組為 ${a, b\}$ , ${c, d, e\}$ ;

② 試圖回退到切割點 $3$ : 想要會回退到切割點 $3$ 的狀態 , 視圖將聚類分組恢復成 ${a, b\}$ , ${c\}$ , ${d, e\}$ ;

③ 無法回退 : 該操作是無法實現的 , 聚類分組一旦合并或分裂 , 此時就無法回退 ;

族間距離概念

族間距離 :

① 作用: 族間距離 , 就是聚類分組之間的距離 , 之前的距離計算都是樣本之間的距離 , 這里的基于層次聚類時 , 不管是聚合層次聚類 , 還是劃分層次聚類 , 其都要進行聚類分組間的相似度比較 ,

② 聚合層次聚類 : 是根據聚類的族間距離 ( 聚類分組相似性 ) 將不同的聚類分組進行合并 ;

③ 劃分層次聚類 : 是根據聚類的族間距離 ( 聚類分組相似性 ) 將不同的聚類分組進行劃分 ( 拆分 ) ;

族間距離使用到的變量

公式中用到的變量 :

① 樣本表示 : $p$ 和 $q$ 表示分別處于兩個聚類分組中的兩個樣本 ;

② 樣本距離表示 : $d (p, q)$ 表示 $p$ 樣本對象與 $q$ 樣本對象的距離 ;

③ 聚類 ( 族 ) 表示 : $C_i$ 和 $C_j$ 分別表示兩個聚類 / 族 / 聚類分組 ;

④ 聚類距離表示 : $d(C_i, C_j)$ 表示 $C_i$ 聚類與 $C_j$ 聚類之間的距離 ;

⑤ 聚類中心點 : $m_i$ 是 $C_i$ 聚類的中心點 , $m_j$ 是 $C_j$ 聚類的中心點 ;

⑥ 樣本個數 : $n_i$ 是 $C_i$ 聚類的樣本個數 , $n_j$ 是 $C_j$ 聚類的樣本個數 ;

族間距離最小距離

$C_i \,, C_j$ 族間距離最小距離公式 :

$dmin(Ci,Cj)=minp∈Ci,q∈Cjd(p,q)d_{min}(C_i , C_j) = min _{p \in C_i , q \in C_j} d(p, q)$

$d_{min}(C_i , C_j)$ 表示兩個聚類的最小距離 ;

$p$ 是屬于 $C_i$ 聚類中的任意樣本 ;

$q$ 是屬于 $C_j$ 聚類中的任意樣本 ;

總結 : 兩個聚類中兩個最近的樣本之間的距離就是聚類間的最小距離 ;

族間距離最大距離

$C_i \,, C_j$ 族間距離最大距離公式 :

$dmax(Ci,Cj)=maxp∈Ci,q∈Cjd(p,q)d_{max }(C_i , C_j) = max _{p \in C_i , q \in C_j} d(p, q)$

$d_{max }(C_i , C_j)$ 表示兩個聚類的最大距離 ;

$p$ 是屬于 $C_i$ 聚類中的任意樣本 ;

$q$ 是屬于 $C_j$ 聚類中的任意樣本 ;

總結 : 兩個聚類中兩個最遠的樣本之間的距離就是聚類間的最大距離 ;

族間距離中心點距離

$C_i \,, C_j$ 族間距離中心點距離公式 :

$d_{mean }(C_i , C_j) = d(m_i, m_j)$

$d_{mean }(C_i , C_j)$ 表示兩個聚類的中心點距離 ;

$m_i$ 是 $C_i$ 聚類的中心點 ;

$m_j$ 是 $C_j$ 聚類的中心點 ;

$d(m_i, m_j)$ 表示 $m_i$ 樣本和 $m_j$ 樣本之間的距離 ;

總結 : 兩個聚類中的中心點樣本之間的距離就是聚類間的中心點距離 ;

族間距離平均距離

$C_i \,, C_j$ 族間距離平均距離公式 :

$davg(Ci,Cj)=1ninj∑p∈Ci∑q∈Cjd(p,q)d_{avg}(C_i , C_j) = \frac{1}{n_i n_j}\sum_{p \in C_i}\sum_{q \in C_j} d(p, q)$

$d_{mean }(C_i , C_j)$ 表示兩個聚類的中心點距離 ;

$p$ 是屬于 $C_i$ 聚類中的任意樣本 ;

$q$ 是屬于 $C_j$ 聚類中的任意樣本 ;

$n_i$ 是 $C_i$ 聚類的樣本個數 ;

$n_j$ 是 $C_j$ 聚類的樣本個數 ;

$∑p∈Ci∑q∈Cjd(p,q)\sum_{p \in C_i}\sum_{q \in C_j} d(p, q)$ 表示聚類 $C_i$ 中每一個點到聚類 $C_j$ 中所有點的距離 , 這里 $C_i$ 中每個點都對應 $n_j$ 個距離 , $n_i$ 個點 , 對應 $ni×njn_i \times n_j$ 個距離 ;

總結 : 兩個聚類中的平均距離就是聚類間的所有點的距離的平均距離 ;

基于層次聚類 ( 聚合層次聚類 ) 步驟

聚合層次聚類步驟 :

① 原理 : 根據聚類分組的族間距離對相似的聚類分組進行逐步合并 ;

② 步驟一 : 每個樣本都構成聚類分組 , 稱為原子聚類 ;

③ 步驟二 : 計算所有聚類之間的距離 ; 可以采用最小距離 , 最大距離 , 中心點距離 , 平均距離中的一個 ;

④ 步驟三 : 將距離最近的兩個聚類分組合并 , 聚類的個數減少 $1$ 個 ;

⑤ 步驟四 : 轉到步驟二計算聚類間距離 , 步驟三合并近距離聚類 ; 如果滿足算法終止條件 , 那么停止聚類 , 否則一直循環迭代 , 最終合并成一個聚類 ;

基于層次聚類 ( 聚合層次聚類 ) 算法終止條件

算法終止條件 : 是由用戶指定的 , 如 :

① 聚類分組 ( 族 ) 個數 : 當聚類的個數達到閾值 , 算法終止 ;

② 聚類半徑 : 每個聚類的半徑都超過某個閾值 ;

族半徑計算公式

族 ( 聚類 ) 半徑計算公式 :

$R=1n∑i=1nd(pi?m)R=\frac{1}{n}\sum _{i=1}^n d(p_i - m)$

$R$ 表示聚類半徑 ;

$n$ 表示聚類中的樣本個數 ;

$m$ 代表聚類中心點 ;

$d(p_i - m)$ 表示聚類中第 $i$ 個樣本距離中心點的距離 ;

基于層次聚類總結

1 . 基于層次聚類的核心 : 是計算兩個聚類分組 ( 族 ) 之間的距離 , 根據族間距離進行聚類合并 ;

2 . 適用場景 : 如果每個聚類密度差不多 , 族間距離分離的很清晰 , 那么使用不同的族間距離進行聚類產生的聚類結果基本一致 ;

3 . 算法缺陷 : 基于層次距離不適用于以下情況 ; 聚類分組分離的不明顯 ; 形狀不是球形 , 凹形的 ; 聚類間大小不等 ; 各個聚類間樣本密度不同 ;

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据挖掘】基于密度的聚类方法 - OP
下一篇：【数据挖掘】基于方格的聚类方法 ( 概念

编程问答

【数据挖掘】基于层次的聚类方法 ( 聚合层次聚类 | 划分层次聚类 | 族间距离 | 最小距离 | 最大距离 | 中心距离 | 平均距离 | 基于层次聚类步骤 | 族半径 )

文章目錄

基于層次的聚類方法 簡介

基于層次的聚類方法 概念

聚合層次聚類 圖示

劃分層次聚類 圖示

基于層次的聚類方法 切割點選取

族間距離 概念

族間距離 使用到的變量

族間距離 最小距離

族間距離 最大距離

族間距離 中心點距離

族間距離 平均距離

基于層次聚類 ( 聚合層次聚類 ) 步驟

基于層次聚類 ( 聚合層次聚類 ) 算法終止條件

族半徑 計算公式

基于層次聚類總結

總結

基于層次的聚類方法簡介

基于層次的聚類方法概念

聚合層次聚類圖示

劃分層次聚類圖示

基于層次的聚類方法切割點選取

族間距離概念

族間距離使用到的變量

族間距離最小距離

族間距離最大距離

族間距離中心點距離

族間距離平均距離

族半徑計算公式