日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

發(fā)布時間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★ 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 一、 貝葉斯分類器分類的流程
  • 二、 貝葉斯分類器分類示例 1



參考博客 :

  • 【數(shù)據(jù)挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導(dǎo) | 使用貝葉斯公式求逆向概率 )
  • 【數(shù)據(jù)挖掘】貝葉斯公式應(yīng)用 拼寫糾正示例分析 ( 先驗概率 | 似然概率 | 后驗概率 )
  • 【數(shù)據(jù)挖掘】貝葉斯公式在垃圾郵件過濾中的應(yīng)用 ( 先驗概率 | 似然概率 | 后驗概率 )
  • 【數(shù)據(jù)挖掘】樸素貝葉斯分類器 ( 多屬性概率計算 | 樸素貝葉斯分類案例分析 )
  • 【數(shù)據(jù)挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應(yīng)用場景 | 樸素貝葉斯優(yōu)缺點 )
  • 【數(shù)據(jù)挖掘】貝葉斯信念網(wǎng)絡(luò) ( 馬爾科夫假設(shè) | 結(jié)構(gòu) | 有向無環(huán)圖 | 參數(shù) | 條件概率表 | 案例分析 )




一、 貝葉斯分類器分類的流程



已知條件 :

已知樣本 : 已知若干個樣本

未知樣本 : 給定 111 個未知樣本 , 其有 444 個屬性組成向量 X\rm XX , 樣本的分類有兩種 , Y\rm YYN\rm NN ; ( Yes / No )


分類步驟 :

計算兩個概率 , 即

① 樣本取值為 X\rm XX 向量時 , 分類為 Y\rm YY 的概率 , 公式為 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(YX)=P(X)P(XY)P(Y)? , 其中 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(XY)P(Y) 含義是 : 樣本分類 Y\rm YY 的概率 P(Y)\rm P(Y)P(Y) , 乘以 樣本分類為 Y\rm YY 前提下樣本取值 X\rm XX 時的概率 P(X∣Y)\rm P(X | Y)P(XY) , 是 P(XY)\rm P(XY)P(XY) 共同發(fā)生的概率 ;

② 樣本取值為 X\rm XX 向量時 , 分類為 N\rm NN 的概率 , 公式為 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(NX)=P(X)P(XN)P(N)? , 其中 P(X∣N)P(N)\rm P(X | N) P(N)P(XN)P(N) 含義是 : 樣本分類為 N\rm NN 的概率 P(N)\rm P(N)P(N) , 乘以 樣本取值 N\rm NN 時的概率 P(X∣N)\rm P(X | N)P(XN) , 是 P(XN)\rm P(XN)P(XN) 共同發(fā)生的概率 ;

上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;


先驗概率 : P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) ;

后驗概率 : P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(XY)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(XN)P(N) ;

公式中每個元素的含義參考 【數(shù)據(jù)挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導(dǎo) | 使用貝葉斯公式求逆向概率 )

上述兩個公式 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(YX)=P(X)P(XY)P(Y)?P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(NX)=P(X)P(XN)P(N)? , 分母都是 P(X)\rm P(X)P(X) , 只比較分子即可 , 其中先驗概率 P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) 很容易求得 , 重點是求兩個后驗概率 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(XY)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(XN)P(N) ;


后驗概率 P(X∣Y)\rm P(X | Y)P(XY) 求法 : 針對 X\rm XX 向量中 444 個分量屬性的取值 , 當(dāng)樣品類型是 Y\rm YY , 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應(yīng)的 444 個概率 , 最后將 四個概率相乘 ;

后驗概率 P(X∣Y)\rm P(X | Y)P(XY) 再乘以先驗概率 P(Y)\rm P(Y)P(Y) , 就是最終的 未知樣本分類為 Y\rm YY 類型的概率 ;


最終對比樣本 , ① 未知樣本分類為 Y\rm YY 類型的概率 , ② 未知樣本分類為 N\rm NN 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;





二、 貝葉斯分類器分類示例 1



分類需求 : 根據(jù) 年齡 , 收入水平 , 是否是學(xué)生 , 信用等級 , 預(yù)測 " 年齡小于 30 歲 , 收入中等 , 學(xué)生 , 信用等級一般 " 的用戶是否會購買商品 ;


年齡收入水平是否是學(xué)生信用等級是否購買商品
小于 30 歲高收入不是一般不會 N\rm NN
小于 30 歲高收入不是很好不會 N\rm NN
31 ~ 39 歲高收入不是一般Y\rm YY
40 歲以上中等收入不是一般Y\rm YY
40 歲以上低收入一般Y\rm YY
40 歲以上低收入很好不會 N\rm NN
31 ~ 40 歲低收入不是很好Y\rm YY
小于 30 歲中等收入不是一般不會 N\rm NN
小于 30 歲低收入一般Y\rm YY
40 歲以上中等收入一般Y\rm YY
小于 30 歲中等收入很好Y\rm YY
31 ~ 39 歲中等收入不是很好Y\rm YY
31 ~ 39 歲高收入一般Y\rm YY
40 歲以上中等收入不是很好不會 N\rm NN

未知樣本 取值 X\rm XX 向量" 年齡小于 30 歲 , 收入中等 , 學(xué)生 , 信用等級一般 " ;

未知樣本 分類為 Y\rm YY 類型的概率 : P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y | X) = \cfrac{P(X|Y) P(Y)}{P(X)}P(YX)=P(X)P(XY)P(Y)?

未知樣本 分類為 N\rm NN 類型的概率 : P(N∣X)=P(X∣N)P(N)P(X)\rm P(N | X) = \cfrac{P(X|N) P(N)}{P(X)}P(NX)=P(X)P(XN)P(N)?

上述兩個概率的分母 P(X)\rm P(X)P(X) 是常數(shù) , 對比時可以忽略 , 只需要對比分子即可 ;

先驗概率 P(Y)=914\rm P(Y) = \cfrac{9}{14}P(Y)=149? , P(N)=514\rm P(N) = \cfrac{5}{14}P(N)=145? , 999 個人購買商品 , 555 個人沒有購買商品 ;

后驗概率

P(X∣Y)=P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學(xué)生∣Y)×P(信用等級一般∣Y)=29×49×69×69\rm \begin{array}{lcl} \rm P(X|Y) &=& \rm P( 年齡小于 30 | Y) \times P( 收入中等 | Y) \times P( 是學(xué)生 | Y) \times P( 信用等級一般 | Y) \\\\ &=& \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \\ \end{array}P(XY)?==?P(30Y)×P(Y)×P(學(xué)Y)×P(Y)92?×94?×96?×96??

P(X∣N)=P(年齡小于30∣N)×P(收入中等∣N)×P(是學(xué)生∣N)×P(信用等級一般∣N)=35×25×15×25\begin{array}{lcl} \rm P(X|N) &=& \rm P( 年齡小于 30 | N) \times P( 收入中等 | N) \times P( 是學(xué)生 | N) \times P( 信用等級一般 | N) \\\\ &=& \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \cfrac{2}{5} \\\\ \end{array}P(XN)?==?P(30N)×P(N)×P(學(xué)N)×P(N)53?×52?×51?×52??

未知樣本 分類為 Y\rm YY 類型的概率 分子 : P(X∣Y)P(Y)=29×49×69×69×914≈0.0282186948853616P(X|Y) P(Y) = \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \times \cfrac{9}{14} \approx 0.0282186948853616P(XY)P(Y)=92?×94?×96?×96?×149?0.0282186948853616

未知樣本 分類為 N\rm NN 類型的概率 分子 : P(X∣N)P(N)=35×25×15×25×514≈0.0068571428571429P(X|N) P(N) = \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \frac{2}{5} \times \cfrac{5}{14} \approx 0.0068571428571429P(XN)P(N)=53?×52?×51?×52?×145?0.0068571428571429


該樣本分類 為 Y\rm YY , 會購買商品 ;

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。