【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
文章目錄
- I . 判別模型 與 概率模型
- II . 貝葉斯分類
- III . 拉普拉斯修正
- IV . 使用 樸素貝葉斯分類器 + 拉普拉斯修正 為樣本分類 ( 完整分類流程 )
- V . 樸素貝葉斯分類器使用
- VI . 樸素貝葉斯分類的優缺點
I . 判別模型 與 概率模型
計算 P(C∣X)P(C|X)P(C∣X) 當屬性值取 XXX 時 , 類別屬于 CCC 的概率 ;
使用 判別模型 和 概率模型 計算上述 P(C∣X)P(C|X)P(C∣X) 概率對比 ;
① 判別模型 : 直接正面對 P(C∣X)P(C|X)P(C∣X) 進行建模 ; 如 決策樹 , 神經網絡 , 支持向量機 ;
② 概率模型 : 對 P(C∣X)P(C|X)P(C∣X) 的逆向概率 P(X∣C)P(X|C)P(X∣C) 進行建模 , 再計算 P(C∣X)P(C|X)P(C∣X) ; 如 貝葉斯分類器 ;
II . 貝葉斯分類
貝葉斯分類中 , 計算 P(C∣X)P(C|X)P(C∣X) 當屬性值取 XXX 時 , 類別屬于 CCC 的概率 ;
P(C∣X)P(C|X)P(C∣X) 很難直接獲得 , 使用貝葉斯公式可以通過其逆概率計算該值 :
P(C∣X)=P(X∣C)P(C)P(X)P(C|X) = \frac{P(X|C) P(C)}{P(X)}P(C∣X)=P(X)P(X∣C)P(C)?
-
先驗概率 : P(C)P(C)P(C) 是先驗概率 , 數據集中類別為 CCC 的樣本數出現的概率 , 數據集越大越準確 ;
-
證據因子 : P(X)P(X)P(X) 是屬性取值 XXX 的概率 , 該值也是從數據集中統計樣本屬性為 XXX 的概率 , 數據集越大越準確 , 該值與類別判定無關 ;
-
類條件概率 ( 似然 ) : P(X∣C)P(X|C)P(X∣C) 樣本是 CCC 類別時 , 屬性值是 XXX 的概率 , 可以通過機器學習獲得 ;
P(X∣C)P(X|C)P(X∣C) 是通過機器學習基于有限樣本估算概率 , P(X)P(X)P(X) 和 P(C)P(C)P(C) 可以根據當前樣本統計獲得 ;
III . 拉普拉斯修正
1 . 分類屬性 P(Xk∣Ci)P( X_k | C_i )P(Xk?∣Ci?) 計算方式 : 如果第 kkk 個屬性的取值是離散的 , 即分類屬性 , 那么通過以下公式計算 :
P(Xk∣Ci)=SikSiP( X_k | C_i ) = \frac{S_{ik}}{S_i}P(Xk?∣Ci?)=Si?Sik??
SiS_iSi? 是分類為 CiC_iCi? 類型的數據集樣本個數 ;
SikS_{ik}Sik? 是被分類成 CiC_iCi? 類型的樣本中 , 并且第 kkk 個值是 XkX_kXk? 的樣本個數 ;
2 . 屬性屏蔽的情況 :
給出一個樣本 , 預測其分類 ;
如果該樣本的某個屬性值 , 在某一個預測的分類 CiC_iCi? 中沒有出現過 , 即 SikS_{ik}Sik? 是 000 , 那么計算出來的分類屬性 P(Xk∣Ci)=SikSiP( X_k | C_i ) = \dfrac{S_{ik}}{S_i}P(Xk?∣Ci?)=Si?Sik?? 就是 000 ;
進而 P(X∣Ci)=∏k=1nP(Xk∣Ci)P(X|C_i) = \prod_{k=1}^n P( X_k | C_i )P(X∣Ci?)=∏k=1n?P(Xk?∣Ci?) 多屬性分類的聯合概率也就成為 000 ;
那么計算其分類為 CiC_iCi? 的概率肯定是 000 , 整體的聯合概率是通過乘法法則計算的 , 這樣會抹去其它屬性的信息 , 即使其它屬性的權重很大 , 整體概率也會成為 000 ;
其它屬性的概率權重被屏蔽了 , 結果肯定不準確 ; 這種情況就要 引入 拉普拉斯修正 ;
3 . 拉普拉斯修正 :
① 計算 先驗概率 時 進行 拉普拉斯修正 :
P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc?∣+1?
- DcD_cDc? 表示訓練集中 , 分類為 CCC 的樣本個數 ;
- DDD 表示訓練集中樣本中個數 ;
- NNN 表示按照某屬性分類的類別數 , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 N=2N=2N=2 ;
② 計算 類條件概率 ( 似然 ) 時 進行 拉普拉斯修正 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk?∣Ci?)=Si?+Ni?Sik?+1?
-
SiS_iSi? 是分類為 CiC_iCi? 類型的數據集樣本個數 ;
-
SikS_{ik}Sik? 是被分類成 CiC_iCi? 類型的樣本中 , 并且第 kkk 個值是 XkX_kXk? 的樣本個數 ;
-
NiN_iNi? 表示該屬性的可取值個數 , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 Ni=2N_i=2Ni?=2 ;
IV . 使用 樸素貝葉斯分類器 + 拉普拉斯修正 為樣本分類 ( 完整分類流程 )
1 . 需求 : 根據 年齡 , 收入水平 , 是否是學生 , 信用等級 , 預測該用戶是否會購買商品 ;
| 小于 30 歲 | 高收入 | 不是 | 一般 | 不會 |
| 小于 30 歲 | 高收入 | 不是 | 很好 | 不會 |
| 31 ~ 39 歲 | 高收入 | 不是 | 一般 | 會 |
| 40 歲以上 | 中等收入 | 不是 | 一般 | 會 |
| 40 歲以上 | 低收入 | 是 | 一般 | 會 |
| 40 歲以上 | 低收入 | 是 | 很好 | 不會 |
| 31 ~ 40 歲 | 低收入 | 不是 | 很好 | 會 |
| 小于 30 歲 | 中等收入 | 不是 | 一般 | 不會 |
| 小于 30 歲 | 低收入 | 是 | 一般 | 會 |
| 40 歲以上 | 中等收入 | 是 | 一般 | 會 |
| 小于 30 歲 | 中等收入 | 是 | 很好 | 會 |
| 31 ~ 39 歲 | 中等收入 | 不是 | 很好 | 會 |
| 31 ~ 39 歲 | 高收入 | 是 | 一般 | 會 |
| 40 歲以上 | 中等收入 | 不是 | 很好 | 不會 |
2 . 為某未知類型樣本進行分類 ;
① 未知樣本的 444 個屬性值為 : 年齡 小于 30 歲 , 收入 中等 , 是否是學生 是 , 信用等級 一般 , 四個值組成向量 XXX ;
② 分類類型 : 是否購買商品 , 是 或者 否 ; 購買商品為 時間 YYY , 不購買商品為事件 NNN ;
③ 樣本 444 個屬性取值 XXX , 并且類型為 YYY 的概率 : P(Y∣X)P(Y | X)P(Y∣X) ;
④ 樣本 444 個屬性取值 XXX , 并且類型為 NNN 的概率 : P(N∣X)P(N | X)P(N∣X) ;
3 . 計算取值 XXX 向量時 , 某分類的概率 P(Y∣X)P(Y | X)P(Y∣X) :
① 以 P(Y∣X)P(Y | X)P(Y∣X) 計算為例 : 樣本 444 個屬性取值 XXX , 并且類型為 YYY 的概率 , 直接求該概率是無法計算的 ;
② 引入貝葉斯公式 : 使用其逆概率 P(X∣Y)P(X|Y)P(X∣Y) , 當類型是 YYY 是 , 取值為 XXX 的概率 ;
P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y | X) = \frac{P(X|Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)?
③ 逆概率 P(X∣Y)P(X|Y)P(X∣Y) : 當類型是 YYY 是 , 取值為 XXX 的概率 ; 即 當購買商品時 , 前 444 個屬性取值為 XXX 向量的概率 ;
4 . 計算取值 XXX 向量時 , 某分類的概率 P(N∣X)P(N | X)P(N∣X) :
① 以 P(N∣X)P(N | X)P(N∣X) 計算為例 : 樣本 444 個屬性取值 XXX , 并且類型為 NNN 的概率 , 直接求該概率是無法計算的 ;
② 引入貝葉斯公式 : 使用其逆概率 P(X∣N)P(X|N)P(X∣N) , 當類型是 NNN 是 , 取值為 XXX 的概率 ;
P(N∣X)=P(X∣N)P(N)P(X)P(N | X) = \frac{P(X|N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)?
③ 逆概率 P(X∣N)P(X|N)P(X∣N) : 當類型是 NNN 是 , 取值為 XXX 的概率 ; 即 當購買商品時 , 前 444 個屬性取值為 XXX 向量的概率 ;
5 . 比較取值 YYY 和 取值 NNN 的兩個概率 :
① 原始概率 : 將 P(N∣X)P(N | X)P(N∣X) 和 P(Y∣X)P(Y | X)P(Y∣X) 兩個概率進行比較 ;
即 P(X∣Y)P(Y)P(X)\frac{P(X|Y) P(Y)}{P(X)}P(X)P(X∣Y)P(Y)? 和 P(X∣N)P(N)P(X)\frac{P(X|N) P(N)}{P(X)}P(X)P(X∣N)P(N)? 兩個概率進行比較 ;
② 省略分母比較分子 : 分母都是 P(X)P(X)P(X) , 可以只比較分子 , P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 進行比較 ;
6 . 計算 222 個先驗概率 : ( 引入拉普拉斯修正 )
這里使用引入 拉普拉斯修正 的公式進行計算 :
P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc?∣+1?
- DcD_cDc? 表示訓練集中 , 分類為 CCC 的樣本個數 ;
- DDD 表示訓練集中樣本中個數 ;
- NNN 表示按照某屬性分類的類別數 , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 N=2N=2N=2 ;
P(Y)P(Y)P(Y) 表示購買商品的概率 , 即上面 141414 個訓練集樣本中 , 購買商品的概率 , 是 9+114+2\frac{9 + 1}{14 + 2}14+29+1? ;
P(N)P(N)P(N) 表示不買商品的概率 , 即上面 141414 個訓練集樣本中 , 不買商品的概率 , 是 5+114+2\frac{5 + 1}{14 + 2}14+25+1? ;
7 . 計算 P(X∣Y)P(X|Y)P(X∣Y) 概率 : 樣本用戶購買商品時 , 前 444 個屬性取值 XXX 向量的概率 ; ( 引入拉普拉斯修正 )
這里使用引入拉普拉斯修正的 分類概率 計算公式 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk?∣Ci?)=Si?+Ni?Sik?+1?
-
SiS_iSi? 是分類為 CiC_iCi? 類型的數據集樣本個數 ;
-
SikS_{ik}Sik? 是被分類成 CiC_iCi? 類型的樣本中 , 并且第 kkk 個值是 XkX_kXk? 的樣本個數 ;
-
NiN_iNi? 表示該屬性的可取值個數 , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 Ni=2N_i=2Ni?=2 ;
① 屬性獨立 : 樸素貝葉斯分類中認為屬性間都是獨立的 , 互不干擾 , 可以將 “前 444 個屬性取值 XXX 向量的概率” 變成概率乘積 ;
② 未知樣本的 444 個屬性值為 : 年齡 小于 30 歲 , 收入 中等 , 是否是學生 是 , 信用等級 一般 , 四個值組成向量 XXX ;
P(X∣Y)P(X|Y)P(X∣Y) 計算 : 買商品的用戶樣本中 , 取值為 XXX 向量的概率 , 如下 :
P(X∣Y)=P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)P(X|Y) = P( 年齡小于 30 | Y) \times P( 收入中等 | Y) \times P( 是學生 | Y) \times P( 信用等級一般 | Y)P(X∣Y)=P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)
其中 :
P(年齡小于30∣Y)P( 年齡小于 30 | Y)P(年齡小于30∣Y) 買商品的用戶中 , 年齡 小于 30 歲的概率 ;
P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 買商品的用戶中 , 收入中等的概率 ;
P(是學生∣Y)P( 是學生 | Y)P(是學生∣Y) 買商品的用戶中 , 是學生的概率 ;
P(信用等級一般∣Y)P( 信用等級一般 | Y)P(信用等級一般∣Y) 買商品的用戶中 , 信用等級一般的概率 ;
③ P(年齡小于30∣Y)P( 年齡小于 30 | Y)P(年齡小于30∣Y) 計算 : 999 個人買商品 , 其中有 222 個小于 30 歲 ;
拉普拉斯修正 : 年齡有 333 種取值 , 分別是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni?=3 ;
P(年齡小于30∣Y)=2+19+3P( 年齡小于 30 | Y) = \frac{2 + 1}{9 + 3}P(年齡小于30∣Y)=9+32+1?
④ P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 計算 : 999 個人買商品 , 其中有 444 個 中等收入者 ;
拉普拉斯修正 : 收入水平有 333 種取值 , 分別是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni?=3 ;
P(收入中等∣Y)=4+19+3P( 收入中等 | Y) = \frac{4 + 1}{9 + 3}P(收入中等∣Y)=9+34+1?
⑤ P(是學生∣Y)P( 是學生 | Y)P(是學生∣Y) 計算 : 999 個人買商品 , 其中有 666 個 是學生 ;
拉普拉斯修正 : 是否是學生有 222 種取值 , 分別是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni?=2 ;
P(是學生∣Y)=6+19+2P( 是學生 | Y) = \frac{6 + 1}{9 + 2}P(是學生∣Y)=9+26+1?
⑥ P(信用等級一般∣Y)P( 信用等級一般 | Y)P(信用等級一般∣Y) 計算 : 999 個人買商品 , 其中有 666 個人信用等級一般 ;
拉普拉斯修正 : 信用等級 有 222 種取值 , 分別是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni?=2 ;
P(信用等級一般∣Y)=6+19+2P( 信用等級一般 | Y) = \frac{6 + 1}{9 + 2}P(信用等級一般∣Y)=9+26+1?
⑦ P(X∣Y)P(X|Y)P(X∣Y) 計算結果 :
P(X∣Y)=P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)=2+19+3×4+19+3×6+19+2×6+19+2\begin{array}{lcl} P(X|Y) &=& P( 年齡小于 30 | Y) \times P( 收入中等 | Y) \times P( 是學生 | Y) \times P( 信用等級一般 | Y) \\\\ &=& \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \\\\ \end{array}P(X∣Y)?==?P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)9+32+1?×9+34+1?×9+26+1?×9+26+1??
8 . 計算 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 值 :
P(X∣Y)=2+19+3×4+19+3×6+19+2×6+19+2P(X|Y) =\frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} P(X∣Y)=9+32+1?×9+34+1?×9+26+1?×9+26+1?
P(Y)=9+114+2P(Y) = \frac{9 + 1}{14 + 2}P(Y)=14+29+1?
P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791?P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791?P(X∣Y)P(Y)=9+32+1?×9+34+1?×9+26+1?×9+26+1?×14+29+1?≈0.0263644972451791?
9 . 計算 P(X∣N)P(X|N)P(X∣N) 概率 : 樣本用戶沒有購買商品時 , 前 444 個屬性取值 XXX 向量的概率 ;
這里使用引入拉普拉斯修正的 分類概率 計算公式 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk?∣Ci?)=Si?+Ni?Sik?+1?
-
SiS_iSi? 是分類為 CiC_iCi? 類型的數據集樣本個數 ;
-
SikS_{ik}Sik? 是被分類成 CiC_iCi? 類型的樣本中 , 并且第 kkk 個值是 XkX_kXk? 的樣本個數 ;
-
NiN_iNi? 表示該屬性的可取值個數 , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 Ni=2N_i=2Ni?=2 ;
① 屬性獨立 : 樸素貝葉斯分類中認為屬性間都是獨立的 , 互不干擾 , 可以將 “前 444 個屬性取值 XXX 向量的概率” 變成概率乘積 ;
② 未知樣本的 444 個屬性值為 : 年齡 小于 30 歲 , 收入 中等 , 是否是學生 是 , 信用等級 一般 , 四個值組成向量 XXX ;
P(X∣N)P(X|N)P(X∣N) 計算 : 不買商品的用戶樣本中 , 取值為 XXX 向量的概率 , 如下 :
P(X∣N)=P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)P(X|N) = P( 年齡小于 30 | N) \times P( 收入中等 | N) \times P( 是學生 | N) \times P( 信用等級一般 | N)P(X∣N)=P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)
其中 :
P(年齡小于30∣N)P( 年齡小于 30 | N)P(年齡小于30∣N) 不買商品的用戶中 , 年齡 小于 30 歲的概率 ;
P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 不買商品的用戶中 , 收入中等的概率 ;
P(是學生∣N)P( 是學生 | N)P(是學生∣N) 不買商品的用戶中 , 是學生的概率 ;
P(信用等級一般∣N)P( 信用等級一般 | N)P(信用等級一般∣N) 不買商品的用戶中 , 信用等級一般的概率 ;
③ P(年齡小于30∣N)P( 年齡小于 30 | N)P(年齡小于30∣N) 計算 : 555 個人不買商品 , 其中有 333 個小于 30 歲 ;
拉普拉斯修正 : 年齡有 333 種取值 , 分別是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni?=3 ;
P(年齡小于30∣N)=3+15+3P( 年齡小于 30 | N) = \frac{3 + 1}{5 + 3}P(年齡小于30∣N)=5+33+1?
④ P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 計算 : 555 個人不買商品 , 其中有 222 個 中等收入者 ;
拉普拉斯修正 : 收入水平有 333 種取值 , 分別是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni?=3 ;
P(收入中等∣N)=2+15+3P( 收入中等 | N) = \frac{2 + 1}{5 + 3}P(收入中等∣N)=5+32+1?
⑤ P(是學生∣N)P( 是學生 | N)P(是學生∣N) 計算 : 555 個人不買商品 , 其中有 111 個 是學生 ;
拉普拉斯修正 : 是否是學生有 222 種取值 , 分別是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni?=2 ;
P(是學生∣N)=1+15+2P( 是學生 | N) = \frac{1 + 1}{5 + 2}P(是學生∣N)=5+21+1?
⑥ P(信用等級一般∣N)P( 信用等級一般 | N)P(信用等級一般∣N) 計算 : 555 個人不買商品 , 其中有 $2 個人信用等級一般 ;
拉普拉斯修正 : 信用等級 有 222 種取值 , 分別是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni?=2 ;
P(信用等級一般∣N)=2+15+2P( 信用等級一般 | N) = \frac{2 + 1}{5 + 2}P(信用等級一般∣N)=5+22+1?
⑦ P(X∣N)P(X|N)P(X∣N) 計算結果 :
P(X∣N)=P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)=3+15+3×2+15+3×1+15+2×2+15+2\begin{array}{lcl} P(X|N) &=& P( 年齡小于 30 | N) \times P( 收入中等 | N) \times P( 是學生 | N) \times P( 信用等級一般 | N) \\\\ &=& \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \\\\ \end{array}P(X∣N)?==?P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)5+33+1?×5+32+1?×5+21+1?×5+22+1??
10 . 計算 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 值 :
P(X∣N)=3+15+3×2+15+3×1+15+2×2+15+2P(X|N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2}P(X∣N)=5+33+1?×5+32+1?×5+21+1?×5+22+1?
P(N)=5+114+2P(N) = \frac{5 + 1}{14 + 2}P(N)=14+25+1?
P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1?×5+32+1?×5+21+1?×5+22+1?×14+25+1?≈0.00421875
11 . 比較 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 兩個值 :
P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791?P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791?P(X∣Y)P(Y)=9+32+1?×9+34+1?×9+26+1?×9+26+1?×14+29+1?≈0.0263644972451791?
P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1?×5+32+1?×5+21+1?×5+22+1?×14+25+1?≈0.00421875
由上面進行對比得出 , 使用樸素貝葉斯分類 , 該樣本用戶會購買商品 ;
V . 樸素貝葉斯分類器使用
1 . 要求分類速度快 : 此時先計算出所有數據的概率估值 , 分類時 , 直接查表計算 ;
2 . 數據集頻繁變化 : 使用懶惰學習的策略 , 收到 分類請求時 , 再進行訓練 , 然后預測 , 分類速度肯定變慢 , 但是預測準確 ;
3 . 數據不斷增加 : 使用增量學習策略 , 原來的估值不變 , 對新樣本進行訓練 , 然后基于新樣本的估值修正原來的估值 ;
VI . 樸素貝葉斯分類的優缺點
樸素貝葉斯分類 :
-
優點 : 只用幾個公式實現 , 代碼簡單 , 結果大多數情況下比較準確 ;
-
缺點 : 假設的屬性獨立實際上不存在 , 屬性間是存在關聯的 , 這會導致部分分類結果不準確 ;
針對屬性間存在依賴的情況 , 使用 貝葉斯信念網絡 方法進行分類 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的
- 下一篇: 【数据挖掘】贝叶斯信念网络 ( 马尔科夫