日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

垃圾邮件分类快速理解机器学习中的朴素贝叶斯(Naive Bayes)

發布時間:2025/3/20 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 垃圾邮件分类快速理解机器学习中的朴素贝叶斯(Naive Bayes) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

貝葉斯方法是一個歷史悠久,有著堅實的理論基礎的方法,同時處理很多問題時直接而又高效,很多高級自然語言處理模型也可以從它演化而來。因此,學習貝葉斯方法,是研究自然語言處理問題的一個非常好的切入口。

其實樸素貝葉斯=貝葉斯公式+條件獨立假設

1.貝葉斯公式
大學概率學統計就已經學過貝葉斯公式,沒學過也沒關系,該公式就一行:
P(Y|X)=P(X|Y)*P(Y)/P(X)
它是由聯合概率推導出來的:
P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)
其中 P(Y) 叫做先驗概率, P(Y|X) 叫做后驗概率, P(Y,X) 叫做聯合概率

2.機器學習角度理解貝葉斯公式:
X:具有某些特征,Y:屬于某類的標簽。于是貝葉斯公式就變成:
P(“屬于某類”|“具有某特征”)=P(“具有某特征”|“屬于某類”)*P(“屬于某類”)/P(“具有某特征”)
對于二分類問題最終判斷判斷 P(“屬于某類”|“具有某特征”)是否大于1/2。

3垃圾郵件識別
現在我們舉個例子,判斷**“我司可辦理正規發票(保真)17%增值稅發票點數優惠!”這樣的一份郵件是不是垃圾郵件。那么這樣的一個例子具有某些特征:X=“我司可辦理正規發票(保真)17%增值稅發票點數優惠!”,屬于某類標簽:Y=垃圾郵件
根據剛提到的概率模型就是判斷
概率P**(“垃圾郵件”|“我司可辦理正規發票(保真)17%增值稅發票點數優惠!”)是否大于1/2。

4.分詞
為了完成垃圾郵件的識別,我們先了解下什么是分詞。分詞也是中文NLP中最重要的技術之一,就是將一句話拆分成若干個詞語的組合。比如句子**“我司可辦理正規發票(保真)17%增值稅發票點數優惠!”就變成(“我”,“司”,“可”,“辦理”,“正規發票”,“保真”,“增值稅”,“發票”,“點數”,“優惠”))。那么在python平臺上有一個非常常用 的分詞工具就是jieba**。
分詞完后,貝葉斯公式就變成:
5.條件獨立假設
雖然已經把一句話轉換成不同詞語的組合,或者說一組向量,但我們現在還不知道分詞后的概率怎么求,現在就用簡單粗暴的方法:條件獨立假設求上面的概率,也就是很樸素的近似。我們用S表示垃圾郵件,用H表示正常郵件,那么垃圾郵件的近似公式(貝葉斯公式分子第一項)就表示如下:

終究是傳說中的條件獨立假設。基于正常郵件的條件獨立假設也一樣。
式中的每一項都特別好求,只需統計各類郵件中關鍵詞出現的概率就行了,比如:

在垃圾郵件分類的例子中,先驗概率(貝葉斯公式分子第二項)都先等:P(S)=P(H)=1/2。
而其中P((”我“,“司”,“可”,“辦理”,“正規發票”,“保真”,“增值稅”,“發票”,“點數”,“優惠”)) 對于正常郵件和垃圾郵件值都是一樣的,所以可以不用計算。
將這些公式代入貝葉斯公式就可以求出概率是不是大于1/2來判斷該郵件,是不是垃圾郵件了。

6.樸素貝葉斯,樸素在何處
最后來討論下加上條件獨立假設的貝葉斯方法為什么叫樸素貝葉斯方法。
將句子(“我”,“司”,“可”,“辦理”,“正規發票”) 中的 (“我”,“司”)與(“正規發票”)調換一下順序,就變成了一個新的句子(“正規發票”,“可”,“辦理”, “我”, “司”)。新句子與舊句子的意思完全不同。但由于乘法交換律,樸素貝葉斯方法中算出來二者的條件概率完全一樣!也就是說,在樸素貝葉斯眼里,“我司可辦理正規發票”與“正規發票可辦理我司”完全相同。樸素貝葉斯失去了詞語之間的順序信息。這就相當于把所有的詞匯扔進到一個袋子里隨便攪和,貝葉斯都認為它們一樣。因此這種情況也稱作詞**袋子模型(bag of words)。**詞袋子模型與人們的日常經驗完全不同。比如,在條件獨立假設的情況下,“武松打死了老虎”與“老虎打死了武松”被它認作一個意思了。恩,樸素貝葉斯就是這么單純和直接。

樸素貝葉斯的優缺點
樸素貝葉斯的主要優點有:
1)樸素貝葉斯模型有穩定的分類效率。
2)對小規模的數據表現很好,能處理多分類任務,適合增量式訓練,尤其是數據量超出內存時,可以一批批的去增量訓練。
3)對缺失數據不太敏感,算法也比較簡單,常用于文本分類。
樸素貝葉斯的主要缺點有:   
1) 理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型給定輸出類別的情況下,假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。
2)需要知道先驗概率,且先驗概率很多時候取決于假設,假設的模型可以有很多種,因此在某些時候會由于假設的先驗模型的原因導致預測效果不佳。
3)由于我們是通過先驗和數據來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率。
4)對輸入數據的表達形式很敏感。

引用及參考
[1] 《統計學習方法》李航著
[2] https://blog.csdn.net/zrh_CSDN/article/details/81007851
[3] https://www.bilibili.com/video/av27193854?p=2

總結

以上是生活随笔為你收集整理的垃圾邮件分类快速理解机器学习中的朴素贝叶斯(Naive Bayes)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 手机av在线免费观看 | 国产精品国产三级国产播12软件 | 在线免费日本 | 五月天激情综合 | 欧美人妖乱大交 | 第四色男人天堂 | 成人亚洲天堂 | 欧美巨大另类极品videosbest | 一边吃奶一边摸做爽视频 | 亚洲无码久久久久 | 啪啪免费视频网站 | 国产夫妻av| 国产一区福利 | 97人妻天天摸天天爽天天 | 日韩在线www | 中文字幕日韩精品亚洲一区小树林 | 日韩色图在线观看 | 日韩三级视频 | 91日韩在线| 一级爱爱片 | 香蕉视频日本 | 五月天综合色 | 国产精品视频麻豆 | 国产精品无码一区二区无人区多人 | 国产农村妇女毛片精品 | 欧美黄色大片在线观看 | 99热这里是精品 | 丝袜视频在线观看 | 97公开免费视频 | av在线一 | 亚洲第一黄色 | 处女朱莉第一次 | 中文字幕在线观看免费高清 | 在线观看亚洲精品视频 | 国产麻豆精品在线观看 | 婷婷一区二区三区四区 | 天天天操操操 | 无码一区二区三区在线观看 | 蜜桃久久久aaaa成人网一区 | 在线成人一区 | 色哟哟国产精品 | 国产精品久久一区 | 日韩亚洲欧美一区 | 欧美日韩一区二区在线观看 | 咪咪成人网 | 少妇毛片一区二区三区粉嫩av | 色爽影院| 国产精品久久久久久久久久久久午夜片 | 国产aaaaaaa | 精品久久影视 | 性色av一区二区三区 | www色综合 | 在线视频中文字幕 | 精品国产无码一区二区三区 | 永久精品网站 | 国产白丝喷水 | 动漫涩涩免费网站在线看 | 精品欧美一区二区精品久久 | www网站在线观看 | 日韩在线播放av | 国产精品v日韩精品v在线观看 | 91av国产精品| 成人在线免费网站 | 国产午夜亚洲精品午夜鲁丝片 | 亚洲欧美综合一区 | 久久免费电影 | 老司机深夜网站 | 美国三级视频 | 国产精品一区二区不卡 | 四虎8848精品成人免费网站 | 日本一区二区免费电影 | 精品xxxxx| 亚洲欧美在线观看 | 色播五月激情五月 | 色吊丝一区二区 | 国产精品区在线 | 91视频免费观看网站 | 免费一级毛片麻豆精品 | 农民工hdxxxx性中国 | 精品福利在线 | 91人妻一区二区三区 | 久久久人妻无码一区二区 | 男女视频在线观看免费 | 波多野结衣精品在线 | 久久伊| 狠狠躁夜夜躁人人爽天天高潮 | 天堂网av在线 | 国产在线专区 | 在线免费观看av网址 | 五月天激情丁香 | 日女人网站 | 亚洲激情第一页 | 激情网综合 | 激情视频网站 | 殴美黄色大片 | 亚洲区自拍 | 人人澡人人澡人人澡 | 久久香视频 | 青草精品视频 |