日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )

發布時間:2025/6/17 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

        • I . 核心距離 概念
        • II . 核心距離值
        • III . 核心距離 示例
        • IV . 可達距離
        • V . 可達距離 示例
        • VI . 可達距離 總結
        • VII . 族序 ( Cluster Ordering ) 概念



I . 核心距離 概念



1 . 核心距離概念引入 : 必須是核心對象 , 才有核心距離 ;


2 . 已知條件 :


① 數據集合 : 給定 數據集 DDD ;

② 參數 : 給定兩個參數 , ε\varepsilonε-鄰域半徑參數 ε\varepsilonε , MinPts 參數 ( ε\varepsilonε-鄰域中樣本個數最小閾值 ) ;

③ 數據樣對象 : 給定一個數據樣本 OOO ;


3 . 樣本 OOO 是核心對象 : 此類情況 核心距離有意義 , 如果是邊界對象無意義 ;


① 核心距離概念引入 : 如果該樣本對象 OOO 是核心對象 , 那么 OOO 對象的 核心距離 , 就是使樣本 OOO 能夠成為 核心對象 的 最小半徑值 ε\varepsilonε 參數 ;

② 核心距離要求 ( 恰好核心的最小距離 ) : 是使得 OOO 能成為 核心對象 的 最小距離 , 不是 之前設定的 ε\varepsilonε 參數 , 該核心距離小于等于 ε\varepsilonε 參數 , 樣本 OOOε\varepsilonε-鄰域 內可能有多于 MinPts 個樣本 , 但是我們只取其半徑范圍內 恰好 有 MinPts 樣本的 半徑值 ε\varepsilonε 作為其核心距離 ;

③ 核心距離種類個數 : 不同的樣本 , 核心距離可能不同 , 101010 個樣本 , 可能有 101010 個核心距離 ;

④ 樣本 OOO 是核心對象判定條件 : 以樣本 OOO 為中心點 , 再其 ε\varepsilonε 半徑區域范圍內 ( ε\varepsilonε-鄰域 ) , 樣本個數多于 MinPts 最小閾值 ;


4 . 樣本 OOO 不是核心對象 : 如果該樣本對象 OOO 不是核心對象 , 是 邊界對象 , 那么 該樣本的 核心距離 概念沒有意義 ;



II . 核心距離值



核心距離確定 :


① 樣本 OOO 是 邊界對象 : 核心距離 無窮大 ; 樣本 OOOε\varepsilonε-鄰域 的樣本個數小于 MinPts 個 ;

② 樣本 OOO 是 核心對象 : 核心距離 是保證 半徑范圍內恰好有 MinPts 個樣本的最小半徑 , 一定要注意 , 就是 卡著第 MinPts 個樣本點的圓的半徑 , OOO 核心對象到第 MinPts 個樣本的距離 / 半徑 ;



III . 核心距離 示例



1 . 已知條件 :


ε\varepsilonε-鄰域 半徑參數 : ε\varepsilonε ;

② MinPts 閾值參數 : MinPts =5= 5=5 , ε\varepsilonε-鄰域中樣本個數最小閾值 , 達到該閾值 , 樣本才能算作核心對象 ;

③ 核心對象 : 紅色點是 核心對象 ;

ε\varepsilonε-鄰域 : 外層的圓 , 以核心對象 ( 紅色樣本 ) 為中心 , ε\varepsilonε 參數為半徑 , 的區域范圍 , 是 ε\varepsilonε-鄰域 ;


2 . 核心距離分析 :


① 核心距離要求 : 樣本的 核心距離 是保證 半徑范圍內恰好有 MinPts 個樣本的最小半徑 ;

ε\varepsilonε 半徑說明 : 這里 ε\varepsilonε 半徑內有 111111 個樣本 , 這個 ε\varepsilonε 不是我們要的核心距離 ;

③ 本案例的核心距離 : 要恰好保證有 核心距離半徑范圍內 MinPts =5= 5=5 樣本 , 的最小半徑值 ;

④ 注意兩點 : 第一 , 恰好保證區域內有 555 個樣本 ; 第二 , 最小半徑 ;

⑤ 核心距離確定 : 這兩個條件唯一確定了一個半徑值 ε′\varepsilon'ε ;




IV . 可達距離



1 . 可達距離概念引入 : 必須是核心對象 , 才有可達距離 ;


2 . 已知條件 :


① 數據集合 : 給定 數據集 DDD ;

② 參數 : 給定兩個參數 , ε\varepsilonε-鄰域半徑參數 ε\varepsilonε , MinPts 參數 ( ε\varepsilonε-鄰域中樣本個數最小閾值 ) ;

③ 數據樣對象 : 給定一個數據樣本 OOO ;


3 . 樣本 OOO 是核心對象 : 此類情況 可達距離有意義 , 如果是邊界對象 可達距離 無意義 ;


4 . 可達距離概念 :


① 前提 : 樣本 OOO 必須是核心對象 ;

② 核心距離 : 樣本 OOO 的核心距離 ;

③ 歐幾里得距離 : OOOppp 之間的 歐幾里得距離 , 這里與 曼哈頓距離 對照 ;

④ 可達距離 : 樣本 OOO 與樣本 ppp 之間的可達距離是 , 核心距離 與 歐幾里得距離 的 較大的值 ;



V . 可達距離 示例



1 . 已知條件 :


ε\varepsilonε-鄰域 半徑參數 : ε\varepsilonε ;

② MinPts 閾值參數 : MinPts =5= 5=5 , ε\varepsilonε-鄰域中樣本個數最小閾值 , 達到該閾值 , 樣本才能算作核心對象 ;

③ 樣本 OOO : 是核心對象 , 中心的紅點 ;

ε\varepsilonε-鄰域 : 外層的圓 , 以核心對象 ( 紅色樣本 ) 為中心 , ε\varepsilonε 參數為半徑 , 的區域范圍 , 是 ε\varepsilonε-鄰域 ;

⑤ 樣本 p1p_1p1? : 在 樣本 OOO 核心距離范圍內 ;

⑥ 樣本 p2p_2p2? : 在樣本 OOO 核心距離范圍外 , 在 ε\varepsilonε 半徑之內 ;


2 . 可達距離 :


① 樣本 OOO 與 樣本 p1p_1p1? 的可達距離 :核心距離 ε′\varepsilon'εOOOp1p_1p1? 歐幾里得距離 選較大的那個 , 選擇 核心距離 ;

② 樣本 OOO 與 樣本 p2p_2p2? 的可達距離 :核心距離 ε′\varepsilon'εOOOp2p_2p2? 歐幾里得距離 選較大的那個 , 選擇 歐幾里得距離 ;



VI . 可達距離 總結



可達距離總結 :


① 核心距離內 : 樣本 OOO 與其核心距離內的樣本的可達距離 都是 核心距離 值 ;

② 核心距離外 ( ε\varepsilonε-鄰域內 ) : 樣本 OOO 與其核心距離外的樣本的可達距離 都是 樣本 OOO 與其它樣本的 歐幾里得距離 ;



VII . 族序 ( Cluster Ordering ) 概念



1 . 族序 ( Cluster Ordering ) 概念 :


① 多層次同時聚類 : 不同層次的聚類分組 , 可以同時進行構建 ;

② 順序處理樣本 : 處理數據集樣本對象時 , 使用特定的順序進行處理 ;

③ 順序擴展 : 數據集樣本對外擴展時 , 按照該順序進行擴展 ,

④ 族序概念 : 該特定順序就是 族序 ( Cluster Ordering ) ;


2 . 聚類順序 : 從 低層 到 高層 ; 從 稠密 到 稀疏 ;

聚類時 , 低層 的聚類分組 要首先構建完成 , 也就是 ε\varepsilonε 參數 較小的聚類分組 ;


3 . 密度可達的兩種情況情況 : 兩個樣本 密度可達 , 有兩種情況 :

ε\varepsilonε 參數小 : 一種情況是 ε\varepsilonε 參數 較小的時候 , 這兩個樣本就可以密度可達 ;

ε\varepsilonε 參數大 : 另一種情況是 ε\varepsilonε 參數 取值很大時 , 才可以密度可達 ;


4 . 擴展樣本優先級 : 擴展樣本對象時 , 優先選擇第一種情況 , ε\varepsilonε 參數 較小的時候 就可以密度可達的樣本 ;


5 . 每個樣本對象需要存儲兩個值 : 核心距離可達距離 ;

總結

以上是生活随笔為你收集整理的【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。