机器学习实战读书笔记(3)朴素贝叶斯
貝葉斯定理
要理解貝葉斯推斷,必須先理解貝葉斯定理。后者實(shí)際上就是計(jì)算"條件概率"的公式。
所謂"條件概率"(Conditional probability),就是指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來表示。
根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(A∩B)除以P(B)。
因此,
同理可得,
所以,
即
這就是條件概率的計(jì)算公式。
性別分類的例子
本例摘自維基百科,關(guān)于處理連續(xù)變量的另一種方法。
下面是一組人類身體特征的統(tǒng)計(jì)資料。
性別 身高(英尺) 體重(磅) 腳掌(英寸)
男 6 180 12?
男 5.92 190 11?
男 5.58 170 12?
男 5.92 165 10?
女 5 100 6?
女 5.5 150 8?
女 5.42 130 7?
女 5.75 150 9
已知某人身高6英尺、體重130磅,腳掌8英寸,請(qǐng)問該人是男是女?
根據(jù)樸素貝葉斯分類器,計(jì)算下面這個(gè)式子的值。
P(身高|性別) x P(體重|性別) x P(腳掌|性別) x P(性別)
這里的困難在于,由于身高、體重、腳掌都是連續(xù)變量,不能采用離散變量的方法計(jì)算概率。而且由于樣本太少,所以也無法分成區(qū)間計(jì)算。怎么辦?
這時(shí),可以假設(shè)男性和女性的身高、體重、腳掌都是正態(tài)分布,通過樣本計(jì)算出均值和方差,也就是得到正態(tài)分布的密度函數(shù)。有了密度函數(shù),就可以把值代入,算出某一點(diǎn)的密度函數(shù)的值。
比如,男性的身高是均值5.855、方差0.035的正態(tài)分布。所以,男性的身高為6英尺的概率的相對(duì)值等于1.5789(大于1并沒有關(guān)系,因?yàn)檫@里是密度函數(shù)的值,只用來反映各個(gè)值的相對(duì)可能性)。
有了這些數(shù)據(jù)以后,就可以計(jì)算性別的分類了。
P(身高=6|男) x P(體重=130|男) x P(腳掌=8|男) x P(男)?
= 6.1984 x e-9
P(身高=6|女) x P(體重=130|女) x P(腳掌=8|女) x P(女)?
= 5.3778 x e-4
可以看到,女性的概率比男性要高出將近10000倍,所以判斷該人為女性。
?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/8609526.html
總結(jié)
以上是生活随笔為你收集整理的机器学习实战读书笔记(3)朴素贝叶斯的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习实战读书笔记(2)决策树
- 下一篇: Logistic Regression