當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搞懂朴素贝叶斯分类算法

發布時間：2023/12/18 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了搞懂朴素贝叶斯分类算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載-
搞懂樸素貝葉斯分類算法

帶你搞懂樸素貝葉斯分類算
貝葉斯分類是一類分類算法的總稱，這類算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我盡可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分類算法，希望有利于他人理解。

1 分類問題綜述

對于分類問題，其實誰都不會陌生，日常生活中我們每天都進行著分類過程。例如，當你看到一個人，你的腦子下意識判斷他是學生還是社會上的人；你可能經常會走在路上對身旁的朋友說“這個人一看就很有錢”之類的話，其實這就是一種分類操作。

既然是貝葉斯分類算法，那么分類的數學描述又是什么呢？

從數學角度來說，分類問題可做如下定義：已知集合和，確定映射規則y = f(x)，使得任意有且僅有一個,使得成立。

其中C叫做類別集合，其中每一個元素是一個類別，而I叫做項集合（特征集合），其中每一個元素是一個待分類項，f叫做分類器。分類算法的任務就是構造分類器f。

分類算法的內容是要求給定特征，讓我們得出類別，這也是所有分類問題的關鍵。那么如何由指定特征，得到我們最終的類別，也是我們下面要講的，每一個不同的分類算法，對應著不同的核心思想。

本篇文章，我會用一個具體實例，對樸素貝葉斯算法幾乎所有的重要知識點進行講解。

2 樸素貝葉斯分類

那么既然是樸素貝葉斯分類算法，它的核心算法又是什么呢？
是下面這個貝葉斯公式：

換個表達形式就會明朗很多，如下：

我們最終求的p(類別|特征)即可！就相當于完成了我們的任務。

3 例題分析

下面我先給出例子問題。

給定數據如下：

現在給我們的問題是，如果一對男女朋友，男生想女生求婚，男生的四個特點分別是不帥，性格不好，身高矮，不上進，請你判斷一下女生是嫁還是不嫁？

這是一個典型的分類問題，轉為數學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))的概率，誰的概率大，我就能給出嫁或者不嫁的答案！
這里我們聯系到樸素貝葉斯公式：

我們需要求p(嫁|(不帥、性格不好、身高矮、不上進),這是我們不知道的，但是通過樸素貝葉斯公式可以轉化為好求的三個量.

p(不帥、性格不好、身高矮、不上進|嫁)、p（不帥、性格不好、身高矮、不上進)、p(嫁)（至于為什么能求，后面會講，那么就太好了，將待求的量轉化為其它可求的值，這就相當于解決了我們的問題！）

4 樸素貝葉斯算法的樸素一詞解釋

那么這三個量是如何求得？

是根據已知訓練數據統計得來，下面詳細給出該例子的求解過程。
回憶一下我們要求的公式如下：

那么我只要求得p(不帥、性格不好、身高矮、不上進|嫁)、p（不帥、性格不好、身高矮、不上進)、p(嫁)即可，好的，下面我分別求出這幾個概率，最后一比，就得到最終結果。

等等，為什么這個成立呢？學過概率論的同學可能有感覺了，這個等式成立的條件需要特征之間相互獨立吧！

對的！這也就是為什么樸素貝葉斯分類有樸素一詞的來源，樸素貝葉斯算法是假設各個特征之間相互獨立，那么這個等式就成立了！

但是為什么需要假設特征之間相互獨立呢？

1、我們這么想，假如沒有這個假設，那么我們對右邊這些概率的估計其實是不可做的，這么說，我們這個例子有4個特征，其中帥包括{帥，不帥}，性格包括{不好，好，爆好}，身高包括{高，矮，中}，上進包括{不上進，上進}，那么四個特征的聯合概率分布總共是4維空間，總個數為2*3*3*2=36個。

36個，計算機掃描統計還可以，但是現實生活中，往往有非常多的特征，每一個特征的取值也是非常之多，那么通過統計來估計后面概率的值，變得幾乎不可做，這也是為什么需要假設特征之間獨立的原因。

2、假如我們沒有假設特征之間相互獨立，那么我們統計的時候，就需要在整個特征空間中去找，比如統計p(不帥、性格不好、身高矮、不上進|嫁),

我們就需要在嫁的條件下，去找四種特征全滿足分別是不帥，性格不好，身高矮，不上進的人的個數，這樣的話，由于數據的稀疏性，很容易統計到0的情況。這樣是不合適的。

根據上面倆個原因，樸素貝葉斯法對條件概率分布做了條件獨立性的假設，由于這是一個較強的假設，樸素貝葉斯也由此得名！這一假設使得樸素貝葉斯法變得簡單，但有時會犧牲一定的分類準確率。

好的，上面我解釋了為什么可以拆成分開連乘形式。那么下面我們就開始求解！

我們將上面公式整理一下如下：

下面我將一個一個的進行統計計算（在數據量很大的時候，根據中心極限定理，頻率是等于概率的，這里只是一個例子，所以我就進行統計即可）。

p(嫁)=？
首先我們整理訓練數據中，嫁的樣本數如下：

則 p(嫁) = 6/12（總樣本數） = 1/2

p(不帥|嫁)=？統計滿足樣本數如下：

則p(不帥|嫁) = 3/6 = 1/2 在嫁的條件下，看不帥有多少

p(性格不好|嫁)= ？統計滿足樣本數如下：

則p(性格不好|嫁)= 1/6

p（矮|嫁） = ?統計滿足樣本數如下：

則p(矮|嫁) = 1/6

p(不上進|嫁) = ?統計滿足樣本數如下：

則p(不上進|嫁) = 1/6

下面開始求分母，p(不帥)，p（性格不好），p（矮），p（不上進）
統計樣本如下：

不帥統計如上紅色所示，占4個，那么p（不帥） = 4/12 = 1/3

性格不好統計如上紅色所示，占4個，那么p（性格不好） = 4/12 = 1/3

身高矮統計如上紅色所示，占7個，那么p（身高矮） = 7/12

不上進統計如上紅色所示，占4個，那么p（不上進） = 4/12 = 1/3

到這里，要求p(不帥、性格不好、身高矮、不上進|嫁)的所需項全部求出來了，下面我帶入進去即可，

= (1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)

下面我們根據同樣的方法來求p(不嫁|不帥，性格不好，身高矮，不上進)，完全一樣的做法，為了方便理解，我這里也走一遍幫助理解。首先公式如下：

下面我也一個一個來進行統計計算，這里與上面公式中，分母是一樣的，于是我們分母不需要重新統計計算！

p（不嫁）=？根據統計計算如下（紅色為滿足條件）：

則p(不嫁)=6/12 = 1/2

p(不帥|不嫁) = ？統計滿足條件的樣本如下（紅色為滿足條件）：

則p（不帥|不嫁） = 1/6

p（性格不好|不嫁） = ？據統計計算如下（紅色為滿足條件）：

則p（性格不好|不嫁） =3/6 = 1/2

p（矮|不嫁） = ？據統計計算如下（紅色為滿足條件）：

則p（矮|不嫁） = 6/6 = 1

p（不上進|不嫁） = ？據統計計算如下（紅色為滿足條件）：

則p（不上進|不嫁） = 3/6 = 1/2

那么根據公式：

p (不嫁|不帥、性格不好、身高矮、不上進) = ((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)
很顯然(1/6*1/2*1*1/2) > (1/2*1/6*1/6*1/6*1/2)

于是有p (不嫁|不帥、性格不好、身高矮、不上進)>p (嫁|不帥、性格不好、身高矮、不上進)

所以我們根據樸素貝葉斯算法可以給這個女生答案，是不嫁！！！！

5 樸素貝葉斯分類的優缺點

優點：
（1）算法邏輯簡單,易于實現（算法思路很簡單，只要使用貝葉斯公式轉化醫學即可！）
（2）分類過程中時空開銷小（假設特征相互獨立，只會涉及到二維存儲）

缺點：

理論上，樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此，這是因為樸素貝葉斯模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，在屬性個數比較多或者屬性之間相關性較大時，分類效果不好。

而在屬性相關性較小時，樸素貝葉斯性能最為良好。對于這一點，有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

整個例子詳細的講解了樸素貝葉斯算法的分類過程，希望對大家的理解有幫助~

參考：李航博士《統計學習方法》

總結

以上是生活随笔為你收集整理的搞懂朴素贝叶斯分类算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于monitor模式
下一篇： Graphics2D绘制图片，线段、矩形

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

搞懂朴素贝叶斯分类算法

總結