當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习理论《统计学习方法》学习笔记：第四章朴素贝叶斯法

發布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习理论《统计学习方法》学习笔记：第四章朴素贝叶斯法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習理論《統計學習方法》學習筆記：第四章樸素貝葉斯法

4 樸素貝葉斯法
- 4.1 樸素貝葉斯法的學習與分類
- - 4.1.1 基本方法
  - 4.1.2 后驗概率最大化的含義
- 4.2 樸素貝葉斯法的參數估計
- - 4.2.1 極大似然估計
  - 4.2.2 學習與分類算法
  - 4.2.3 貝葉斯估計
- 本章概要

4 樸素貝葉斯法

樸素貝葉斯（native bayes）法是基于貝葉斯定理與特征條件獨立假設的分類方法。對于給定的訓練數據集，首先基于特征條件獨立假設學習輸入輸出的聯合概率分布；然后基于此模型，對給定的輸入x，利用貝葉斯定理求出后驗概率最大的輸出y。樸素貝葉斯法實現簡單，學習與預測的效率都很高，是一種常用的方法。

4.1 樸素貝葉斯法的學習與分類

4.1.1 基本方法

設輸入空間 $X∈RnX\in R^n$ 為n維向量的集合，輸出空間為類標記集合 $Y={c1,c2,?,ck}Y=\{c_1,c_2,\cdots,c_k\}$ 輸入為特征向量 $x∈Xx\in X$ ，輸出為類標記 $y∈Yy\in Y$ . $X$ 是定義在輸入空間上的隨機變量， $Y$ 是定義在輸出空間上的隨機變。 $P (X, Y)$ 是 $X$ 和 $Y$ 的聯合概率分布.訓練數據集 $T={(x1,y1),(x2,y2),?,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 由 $P (X, Y)$ 獨立同分布產生。
樸素貝葉斯法通過訓練數據集學習聯合概率分布 $P (X, Y)$ 。具體地，學習以下先驗概率分布及條件概率分布。
先驗概率分布 $P(Y=ck),k=1,2,?,KP(Y=c_k),k=1,2,\cdots,K$
條件概率分布 $P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),?,X(n)=x(n)∣Y=ck),k=1,2,?,KP(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=c_k),k=1,2,\cdots,K$ 于是學習到聯合概率分布 $P (X, Y)$
條件概率分布 $P(X=x|Y=c_k)$ 有指數級數量的參數，其估計實際是不可行的。事實上，假設 $x^{(j)}$ 有 $S_j$ 個， $j=1,2,?,nj=1,2,\cdots,n$ ,Y可能取值有K個，那么參數個數為 $K∏j=1nSjK\prod_{j=1}^nS_j$
樸素貝葉斯法對條件概率分布作了條件獨立性假設。由于這時一個較強的假設，樸素貝葉斯法也由此得名。具體地，條件獨立性假設是 $P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),?,X(n)=x(n)∣Y=ck)P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)$
$P(X=x∣Y=ck)=∏j=1nP(X(j)=x(j)∣Y=ck)P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$
樸素貝葉斯法實際上學習到生成數據的機制，所以屬于生成模型。條件獨立假設等于是說，用于分類的特征在類確定的條件下都是條件獨立的。這一假設使樸素貝葉斯法變得簡單，但是有時會犧牲一定的分類準確率。
貝葉斯分類器可表示為 $y=f(x)=argmaxckP(Y=ck)∏P(X(j)=x(j)∣Y=ck)∑kP(Y=ck)∏P(X(j)=x(j)∣Y=ck)y=f(x)=arg\space max_{c_k}{{P(Y=c_k)\prod P(X^{(j)}=x^{(j)}|Y=c_k)}\over{\sum_k P(Y=c_k)\prod P(X^{(j)}=x^{(j)}|Y=c_k)}}$ ，其中分母對所有 $c_k$ 都是相同的，所以 $y=argmaxckP(Y=ck)∏P(X(j)=x(j)∣Y=ck)y=arg\space max_{c_k}{P(Y=c_k)\prod P(X^{(j)}=x^{(j)}|Y=c_k)}$

4.1.2 后驗概率最大化的含義

樸素貝葉斯法將實例分到后驗概率最大的類中，這等價于期望風險最小化。
假設選擇0-1損失函數：
$\begin{cases} 1,&\text{Y$\neq$f(X)}\\ 0,&\text{Y = f(X)} \end{cases}$ 式中 $f (X)$ 是分類決策函數。
這時，期望風險函數為 $R_{exp}(f)=E[L(Y,f(X))]$ 期望是對聯合分布 $P (X, Y)$ 取的。
根據期望風險最小化準則就得到了后驗概率最大化準則： $f(x)=argmaxckP(ck∣X=x)f(x)=arg\space max_{c_k}P(c_k|X=x)$ 即樸素貝葉斯法所采用的原理。

4.2 樸素貝葉斯法的參數估計

4.2.1 極大似然估計

在樸素貝葉斯法中，學習意味著估計 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。可以應用極大似然估計法估計相應的概率。先驗概率 $P(Y=c_k)$ 的極大似然估計是 $P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,?,KP(Y=c_k)={{\sum_{i=1}^NI(y_i=c_k)}\over{N}},k=1,2,\cdots,K$

4.2.2 學習與分類算法

樸素貝葉斯算法

輸入：
訓練數據集 $T={(x1,y1),(x2,y2),?,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $xi=(xi(1),xi(2),?,xi(n))Tx_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$ , $x_i^{(j)}$ 是第i個樣本的第j個特征， $xi(j)∈{aj1,aj2,?,ajSj}x_i^{(j)}\in\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ， $a_{jl}$ 是第j個特征值可能取的第l個值， $j=1,2,?,n;l=1,2,?,Sj;yi∈{c1,c2,?,ck}j=1,2,\cdots,n;l=1,2,\cdots,S_j;y_i\in\{c_1,c_2,\cdots,c_k\}$ ；實例 $x$ ;
輸出：實例 $x$ 的分類

（1）計算先驗概率及條件概率
$P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,?,KP(Y=c_k)={{\sum_{i=1}^NI(y_i=c_k)}\over{N}},k=1,2,\cdots,K$
$P(X(j)=ajl∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)∑i=1NI(yi=ck)P(X^{(j)}=a_{jl}|Y=c_k)={{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}\over{\sum_{i=1}^NI(y_i=c_k)}}$
$j=1,2,?,n;l=1,2,?,Sj;k=1,2,?,Kj=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K$
（2）對于給定實例 $x=(x(1),x(2),?,x(n))Tx=(x^{(1)},x^{(2)},\cdots,x^{(n)})^T$ ，計算 $P(Y=ck)∏j=1nP(X(j)=x(j)∣Y=ck),k=1,2,?,KP(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),k=1,2,\cdots,K$
（3）確定實例 $x$ 的類
$y=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)∣Y=ck)y=arg\space max_{c_k} P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

4.2.3 貝葉斯估計

用極大似然估計可能會出現所要估計的概率值為0的情況。這時會影響到后驗概率的計算結果，使分類產生偏差。解決這一問題的方法是采用貝葉斯估計。具體地，條件概率的貝葉斯估計是 $Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)+λ∑i=1NI(yi=ck)+SjλP_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)={{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}\over{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}}$ 式中 $λ≥0\lambda \ge0$ .等價于在隨機變量各個取值的頻數上賦予一個正數 $λ>0\lambda\gt0$ .當 $λ=0\lambda=0$ 時，就是極大似然估計。常取 $λ=1\lambda=1$ ，這時稱為拉普拉斯平滑。顯然，對任何 $l=1,2,?,Sj,k=1,2,?,Kl=1,2,\cdots,S_j,k=1,2,\cdots,K$ ；有
$Pλ(X(j)=ajl∣Y=ck)>0P_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)>0$
$∑(l=1)SjP(X(j)=ajl∣Y=ck)=1\sum_{(l=1)}^{S_j}P(X^{(j)}=a_{jl}|Y=c_k)=1$
先驗概率的貝葉斯估計是 $Pλ(Y=ck)=∑i=1NI(yi=ck)+λN+KλP_{\lambda}(Y=c_k)={{\sum_{i=1}^N}I(y_i=c_k)+\lambda\over{N+K\lambda}}$

本章概要

樸素貝葉斯法是典型的生成學習方法。生成方法由訓練數據學習聯合概率分布

P (X, Y)

，然后求得后驗概率分布

P (Y ∣ X)

.具體來說，利用訓練數據學習

P (X ∣ Y)

和

P (Y)

的估計。得到聯合概率分布：

P (X, Y) = P (Y) P (X ∣ Y)

概率估計方法可以是極大似然估計或貝葉斯估計。

樸素貝葉斯法的基本假設是條件獨立性，

P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),?,X(n)=x(n)∣Y=ck)P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)

=∏j=1nP(X(j)=x(j)∣Y=ck)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)

這是一個較強的假設。由于這一假設，模型包含的條件概率的數量大為減少，樸素貝葉斯法的學習與預測大為簡化。因而樸素貝葉斯法高效且易于實現。其缺點是分類的性能不一定很高。

樸素貝葉斯法利用貝葉斯定理與學到的聯合概率模型進行分類預測。

P(Y∣X)=P(X,Y)P(X)=P(Y)P(X∣Y)∑YP(Y)P(X∣Y)P(Y|X)={{P(X,Y)}\over{P(X)}}={{P(Y)P(X|Y)}\over{\sum_{Y}P(Y)P(X|Y)}}

.將輸入x分到后驗概率最大的類y。

y=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)∣Y=ck)y=arg\space max_{c_k} P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)

后驗概率最大等價于0-1損失函數時的期望風險最小化。

總結

以上是生活随笔為你收集整理的机器学习理论《统计学习方法》学习笔记：第四章朴素贝叶斯法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习理论《统计学习方法》学习笔记：第
下一篇：机器学习理论《统计学习方法》学习笔记：第