日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

em notes

發布時間:2025/3/21 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 em notes 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

K 類個數, M term個數, N doc個數。

?

?

?

qmkterm m在類k中出現的概率。

16.14式的左邊含義就是在模型未知參數theta的情況下, k中包含文檔d的概率

右邊就是d內的所有term出現在類k中的概率連乘積, d內未出現的term的補(1-q)的連乘積

?

?

?

?

16.14式不同的是, wk了。

那么16.15左式的含義就是, 在該模型未知參數下, 文檔d出現在該模型下的概率。

Alpha k是每個類的先驗概率。

上式右邊就是文檔d出現在類k的概率, 然后加權求和

?

?

?

大化步, 重新評估模型參數qmk, alpha k

r(nk) 是文檔dn 率屬于 k的概率

?

I(tm, dn) 如果term m在文檔dn中出現則為1 否則為0.

?

那么這里的qmk term m在類k中出現的概率, 實際上就是個加權值(加權的DF)。 分母是類k中所有文檔的概率之和, 分子是類k中包含了term m的文檔的概率之和。

?

?

alpha k是先驗概率, 表示類k的大小。 那么就是 所有文檔率屬于類k的概率之和除以文檔總數

?

?

?

?

期望步, 計算rnk的極大似然值

分子是文檔dn在類k中的概率乘以類k的先驗概率。 (式16.14

分母是文檔dn在所有類中的概率乘以對應類的先驗概率 得到的和。(式16.15

因此, 文檔dn出現在類k中的概率理所當然就是兩者之商。

?

?

?

EM算法對initial seeds的要求更嚴格。 一般使用k-means算法得到kcentroid,從而得到先驗概率alpha k以及 qmk

?

EM算法是generalized k-means

K-means是硬的分類方法, 每個doc只能屬于一個類; EM是軟的分類方法, 每個doc在不同的類中都有一定的概率

?

?

?

?

具體算法見 weak, em http://blog.csdn.net/aalbertini/archive/2010/08/11/5804318.aspx

初始化

已知k個質心、以及每類中的樣本數以及具體樣本, 因此可以得到:

m_priors, k個先驗概率, 表示每個類的先驗大小

m_num_clusters, 類個數k 一般是輸入。

m_model[K][M] 每個類中每個屬性的概率, 就是上式中qmk的轉置形式

m_weights[N][K] 每個文檔在每個類中的概率, 就是16.14/16.15得到的矩陣。 初始值應該為硬分類的結果, 即其中每行只有11 其他都為0 就是上式中的rnk

?

M step

根據 m_priors, m_weights 重新計算m_model

?

E step

根據 m_priors, m_model 重新計算 m_weights 當達到退出條件時結束

總結

以上是生活随笔為你收集整理的em notes的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。