日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

發(fā)布時(shí)間:2025/6/17 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 ) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

        • I . 垃圾郵件過濾 需求 及 表示方法
        • II . 貝葉斯方法 步驟 1 : 提出假設(shè)
        • III . 貝葉斯方法 步驟 2 : 計(jì)算垃圾郵件假設(shè)概率
        • IV . 貝葉斯方法 步驟 2 : 計(jì)算正常郵件假設(shè)概率
        • V . 貝葉斯方法 步驟 3 : 比較假設(shè)的概率
        • VI . 先驗(yàn)概率 P(H1)P(H_1)P(H1?)P(H0)P(H_0)P(H0?)
        • VII . 似然概率 P(D∣H1)P(D|H_1)P(DH1?)P(D∣H0)P(D|H_0)P(DH0?)



I . 垃圾郵件過濾 需求 及 表示方法



1 . 需求 : 收到一封郵件 , 判斷該郵件是否是垃圾郵件 ;


2 . 表示方法 :


① 收到郵件 DDD : DDD 表示收到的郵件 , 其有一定的特征 , 如包含指定的單詞 等 ;

② 收到郵件 DDD 的概率 : DDD 是符合一定要求的郵件 , 不是每一個(gè)收到的郵件都有 DDD 的特征 ;

③ 垃圾郵件 H0H_0H0? : 表示收到 DDD 郵件是 H0H_0H0? 垃圾郵件 ; ( H0H_0H0? 泛指垃圾郵件 , 不是指某一封郵件 )

④ 正常郵件 H1H_1H1? : 表示收到 DDD 郵件是 H1H_1H1? 正常郵件 ; ( H1H_1H1? 泛指正常郵件 , 不是指某一封郵件 )



II . 貝葉斯方法 步驟 1 : 提出假設(shè)



1 . 提出假設(shè) : 收到郵件事件是 DDD , 該郵件是否是垃圾郵件 , 只有兩個(gè)假設(shè) , 是 或 否 ,


① 假設(shè) 111 : 假設(shè) 收到的 DDD 郵件 是垃圾郵件 H0H_0H0? ;

② 假設(shè) 222 : 假設(shè) 收到的 DDD 郵件 是正常郵件 H1H_1H1? ;



III . 貝葉斯方法 步驟 2 : 計(jì)算垃圾郵件假設(shè)概率



1 . 計(jì)算該郵件是垃圾郵件的概率 :


① 需要計(jì)算的概率 : 收到郵件 DDD 后 , 該郵件是垃圾郵件 H0H_0H0? , 概率是 P(H0∣D)P(H_0|D)P(H0?D) ;

② 問題 : 很明顯 , 這個(gè)概率求不出來 ;


2 . 引入貝葉斯公式 :


① 逆向概率 ( 似然概率 | 條件概率 ) : 收到垃圾郵件后 , 該郵件是 DDD 的概率 ; 這個(gè)概率可以由訓(xùn)練學(xué)習(xí)得到 , 數(shù)據(jù)量足夠大 , 是可以知道的 ;

② 先驗(yàn)概率 : 收到 H0H_0H0? 郵件的概率是已知的 ;

③ 后驗(yàn)概率 : 貝葉斯公式計(jì)算該郵件 DDD 是垃圾郵件的概率 :

P(H0∣D)=P(D∣H0)P(H0)P(D)P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}P(H0?D)=P(D)P(DH0?)P(H0?)?



IV . 貝葉斯方法 步驟 2 : 計(jì)算正常郵件假設(shè)概率



1 . 計(jì)算該郵件是正常郵件的概率 :


① 計(jì)算的概率 : 收到郵件 DDD 后 , 該郵件是正常郵件 H1H_1H1? , 概率是 P(H1∣D)P(H_1|D)P(H1?D) ;

② 問題 : 很明顯 , 這個(gè)概率求不出來 ;


2 . 引入貝葉斯公式 :


① 逆向概率 ( 似然概率 | 條件概率 ) : 收到正常郵件 H1H_1H1? 后 , 該郵件是 DDD 的概率 ; 這個(gè)概率可以由訓(xùn)練學(xué)習(xí)得到 , 數(shù)據(jù)量足夠大 , 是可以知道的 ;

② 先驗(yàn)概率 : 收到 H1H_1H1? 郵件的概率是已知的 ;

③ 后驗(yàn)概率 : 貝葉斯公式計(jì)算該郵件 DDD 是正常郵件的概率 :

P(H1∣D)=P(D∣H1)P(H1)P(D)P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}P(H1?D)=P(D)P(DH1?)P(H1?)?



V . 貝葉斯方法 步驟 3 : 比較假設(shè)的概率



1 . 假設(shè)概率 : 提出了 222 個(gè)假設(shè) , 郵件 DDD 是垃圾郵件的概率是 P(H0∣D)=P(D∣H0)P(H0)P(D)P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}P(H0?D)=P(D)P(DH0?)P(H0?)? , 郵件 DDD 是正常郵件的概率是 P(H1∣D)=P(D∣H1)P(H1)P(D)P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}P(H1?D)=P(D)P(DH1?)P(H1?)? ;


2 . 比較概率忽略分母 : 比較 上述兩個(gè)概率 , 明顯其分母都是 P(D)P(D)P(D) , 可以不考慮分母因素 , 只比較分子 ;


3 . 比較分子 : 比較 P(D∣H0)P(H0)P(D|H_0)P(H_0)P(DH0?)P(H0?)P(D∣H1)P(H1)P(D|H_1)P(H_1)P(DH1?)P(H1?) 兩個(gè)值的大小 ;



VI . 先驗(yàn)概率 P(H1)P(H_1)P(H1?)P(H0)P(H_0)P(H0?)



1 . 先驗(yàn)概率 : P(H1)P(H_1)P(H1?) 代表收到正常郵件的概率 , P(H0)P(H_0)P(H0?) 代表收到垃圾郵件的概率 ;


2 . 獲取這兩個(gè)概率 : 從系統(tǒng)后臺(tái)服務(wù)器中的郵件庫中獲取垃圾郵件 和 正常郵件比例即可 ;



VII . 似然概率 P(D∣H1)P(D|H_1)P(DH1?)P(D∣H0)P(D|H_0)P(DH0?)



1 . P(D∣H1)P(D|H_1)P(DH1?) 概率 : 表示收到正常郵件時(shí) , 該郵是 DDD 郵件的概率 , 即具有 DDD 郵件的特征 ; 需要在當(dāng)前郵件庫中找到具有該郵件 DDD 特征的郵件出現(xiàn)的概率 ;


2 . P(D∣H0)P(D|H_0)P(DH0?) 概率 : 表示收到垃圾郵件時(shí) , 該郵是 DDD 郵件的概率 , 即具有 DDD 郵件的特征 ; 需要在當(dāng)前郵件庫中找到具有該郵件 DDD 特征的郵件出現(xiàn)的概率 ;

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。