日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

發布時間:2025/6/17 35 豆豆

文章目錄

        • I . 高斯混合模型方法 ( GMM )
        • II . 硬聚類 與 軟聚類
        • III . GMM 聚類結果概率的作用
        • IV . 高斯混合分布
        • V . 概率密度函數
        • VI . 高斯分布 曲線 ( 僅做參考 )
        • VII . 高斯混合模型 參數簡介



I . 高斯混合模型方法 ( GMM )



1 . 高斯混合模型 與 K-Means 相同點 : 高斯混合模型方法 與 K-Means 方法 , 都是通過多次迭代 , 每次迭代都對聚類結果進行改進 , 最終達到算法收斂 , 聚類分組結果達到最優 ;


2 . 高斯混合模型 與 K-Means 不同點 :


① K-Means 方法 : 使用 K-Means 方法的 聚類結果是 某個樣本 被指定到 某個聚類分組中 ;

② 高斯混合模型 : 高斯混合模型的聚類分析結果是 , 某個樣本 被分到了 某個聚類分組 中 , 但是除此之外還給出了 該樣本 屬于 該聚類概率 , 意思是 該樣本 并不是 一定屬于該聚類 , 而是有一定幾率屬于 ;

③ 高斯混合模型 應用場景 : 高斯混合模型 需要訓練學習出 概率密度函數 , 該方法除了用于 聚類分析 外 , 還可以用于 密度估計 等用途 ;



II . 硬聚類 與 軟聚類



硬聚類 與 軟聚類 :


① 硬聚類 (硬指派 ) : K-Means 方法中 , 每個數據集樣本 , 都被指派了一個聚類分組 ;

② 軟聚類 ( 軟指派 ) : 高斯混合模型方法中 , 每個數據集樣本 , 也都被指派了一個聚類分組 , 此外還指定了該樣本屬于該聚類分組的概率 , 即該樣本不一定屬于該聚類分組 , 有一定幾率屬于其他聚類分組 ;

③ 硬指派概率 : 硬指派中 , 樣本如果屬于某個聚類分組 , 就是 100% 屬于 , 如果不屬于某聚類 , 就是 0% 屬于 , 沒有概率的概念 ;



III . GMM 聚類結果概率的作用



1 . 概率信息 : 高斯混合模型 方法 的 聚類結果 附帶 樣本 屬于 聚類 的 概率 , 其包含的信息量 遠遠高于 K-Means 方法的 單純的樣本聚類分組 ;


2 . 聚類概率 : 聚類算法并不是萬能的 , 不能保證 100% 準確 , 這里可以將 高斯混合模型 樣本 的 聚類分組 概率值 , 轉為一個評分 , 用該評分表示 聚類結果 的準確性 ;


3 . 評分作用 : 同一個聚類分析 , 使用不同的方法 , 得到 多個結果 , 每個結果都有 聚類概率 轉化的一個評分 , 可以將 聚類結果評分 最高的那個結果 當做 最終結果 ;


4 . 示例 : 疾病診斷場景 , 為病人樣本進行聚類分組 , 最終結果是 49%49\%49% 的概率分到得病的聚類分組 , 51%51\%51% 分到不得病的聚類分組 , 如果靠機器判定該病人樣本是否得病 , 風險太大了 , 這里保守的方法是計算機給出意見 , 但是不能下決定 , 讓醫生根據這個 聚類 和 概率 進行后續的診斷治療工作 ;



IV . 高斯混合分布



高斯混合分布 概念 : 高斯混合模型 數據集樣本 服從 高斯混合分布 ;


① 高斯分布 : 又叫 正態分布 , 常態分布 ; 高斯分布曲線兩頭低 , 中間高 , 呈鐘形 , 又叫鐘形曲線 ;

② 高斯混合分布 : kkk 個高斯分布 生成 高斯混合分布 , 這里的 kkk 是聚類分組的個數 ;



V . 概率密度函數



概率密度函數 :


① 組件 ( 高斯分布 ) :每個高斯分布 , 都是一個組件 , 代表一個聚類分組中的樣本分布 ;

② 組件疊加 ( 高斯混合分布 ) : kkk 個組件 ( 高斯分布 ) 線性疊加 , 組成了 高斯混合模型的 概率密度函數 ;


p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1k?ωi?g(xμi?,Σi?)


xxx 表示數據集樣本中的 單個樣本數據對象 ;

ωi\omega_iωi? 是權重系數 , 表示某個 高斯模型 的重要程度, 重要的分布 , ωi\omega_iωi? 值大 , 不重要的分布 , ωi\omega_iωi? 權重小 ;

ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ; iii 代表了高斯分布的序號 , 聚類分組的序號 , 組件的序號, 其取值范圍是 0≤i≤k0 \, \leq i \leq \, k0ik ;

kkk 表示 高斯分布 ( 正態分布 / 組件 ) 的個數 , 也是聚類分組的個數 , 每個聚類分組的樣本都是 高斯分布 ( 正態分布 ) 的 ;

g(x∣μi,Σi)g ( x | \mu_i , \Sigma_i )g(xμi?,Σi?) 是高斯模型 的概率密度函數 ;

μi\mu_iμi? 是 高斯模型 的 均值 ;

Σi\Sigma_iΣi? 是高斯模型的 方差 ;


均值和方差唯一決定一個高斯模型 ( 正態分布 ) ;



VI . 高斯分布 曲線 ( 僅做參考 )



高斯分布 : 高斯分布曲線是鐘形曲線 , 中間的 μ\muμ 是其 樣本分布的 均值 , 該值位置處的樣本數最多 , σ\sigmaσ 是其樣本的方差 , 這是 111 個標準的高斯分布的模型 ;

高斯混合模型 : 下圖是 多個 高斯分布 線性疊加后的 曲線表示圖 , 僅做參考 ;



VII . 高斯混合模型 參數簡介



1 . 模型 與 參數 : 高斯混合模型 概率密度函數 :


p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1k?ωi?g(xμi?,Σi?)


模型結構已知 , 即 高斯混合模型 , 需要根據已知的數據樣本 , 學習出模型的參數 ;


2 . 高斯混合模型 參數個數 :


① 聚類個數 ( 高斯模型個數 ) : 每個高斯混合模型 都由 kkk 個高斯模型 ( 組件 ) 線性疊加組成的 ;

② 高斯模型參數 : 每個高斯模型 都有兩個參數 , 即 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? ;

③ 樣本屬于聚類分組概率 ( 系數 ) : 每個高斯模型 還有一個系數參數 , ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ;

④ 每個高斯模型相關參數個數 : kkk 個 高斯模型 , 每個高斯模型有 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? , 生成概率 ωi\omega_iωi?333個參數 ;

⑤ 高斯混合模型參數個數 : 整個 高斯混合模型 有 3×k3 \times k3×k 個參數 , kkk 是聚類分組個數 , 也是高斯模型個數 , 正態分布個數 ;


Σi\Sigma_iΣi? 此處方差表示 , 是大寫的希臘字母 sigma σ\sigmaσ , 注意與加和符號 ∑\sum 區分 ;


K-Means 方法中 , 有 kkk 個參數 , 每個聚類分組 , 只有一個參數 , 即中心點樣本參數 ;

總結

以上是生活随笔為你收集整理的【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。