日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记(七)贝叶斯分类器

發(fā)布時間:2025/4/16 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习笔记(七)贝叶斯分类器 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

7.貝葉斯分類器

7.1貝葉斯決策論

貝葉斯決策論(Bayesiandecision theory)是概率框架下實施決策的基本方法。對分類任務(wù)來說,在所有相關(guān)概率都已知的理想情形下,貝葉斯決策論考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標(biāo)記。這其實是關(guān)系到兩個基本概念:多大可能是這個類別以及可能誤判的損失?機(jī)器學(xué)習(xí)就是從中選擇誤判損失最小的最大概率類別作為其分類標(biāo)識。



回顧下貝葉斯模型的數(shù)學(xué)推論過程,首先是要保證貝葉斯分類器產(chǎn)生的總體誤判損失是最小的,而要得到最小,關(guān)鍵就是從中選擇后驗概率最大的類別標(biāo)記。顯然,基于貝葉斯準(zhǔn)則來最小化鞠策風(fēng)險,現(xiàn)在第一就是要獲得后驗概率P(c|x),故此機(jī)器學(xué)習(xí)的主要任務(wù)就是基于有限的訓(xùn)練樣本集盡可能準(zhǔn)確地估計出后驗概率P(c|x)。

對于后驗概率的估計,大體有兩種策略:1)判別式模型(discriminative models):給定x,通過直接建模P(c|x)來預(yù)測c,決策樹、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等都顯然屬于該范疇,預(yù)設(shè)模型并通過樣本集訓(xùn)練出參數(shù)進(jìn)而再優(yōu)化;2)生成式模型(generative models):先對聯(lián)合概率分布P(x,c)建模,然后再由此獲得P(c|x)。

貝葉斯分類器就是基于條件概率而開展:P(c|x)= P(x,c)/P(x),基于貝葉斯定理,P(c|x)=P(c)P(x|c)/P(x),其中P(c)是類先驗(prior)概率;P(x|c)是樣本x相對于類標(biāo)記c的類條件概率(class-conditional probability),或稱為似然(likelihood);P(x)是用于歸一化的證據(jù)因子。對給定樣本,證據(jù)因子P(x)與類標(biāo)記無關(guān),因此估計P(c|x)的問題就轉(zhuǎn)化為如何基于訓(xùn)練集D來估計先驗P(c)和似然(條件)P(x|c)。

P(c)的訓(xùn)練:類先驗概率P(c)表達(dá)了樣本空間中各類樣本所占的比例,根據(jù)大數(shù)定律,當(dāng)訓(xùn)練集包含充足的獨立同分布樣本時,P(c)可通過各類樣本出現(xiàn)的頻率來進(jìn)行估計。

P(x|c)的訓(xùn)練:類條件概率P(x|c),涉及到關(guān)于x所有屬性的聯(lián)合概率,直接根據(jù)樣本出現(xiàn)的頻率來估計有困難。例如,假設(shè)樣本的d個屬性都是二值的,則樣本空間將有2d中可能的取值,在現(xiàn)實應(yīng)用中,這個值往往大于訓(xùn)練樣本數(shù)m,也就是說,很多樣本的取值在訓(xùn)練集中根本沒有出現(xiàn),直接使用頻率來估計P(x|c)顯然不可行,因為“未被觀測到”和“出現(xiàn)概率為零”通常是不同的。那怎么求解呢?極大似然估計來也。

7.2極大似然估計

既然無法直接通過頻率來估計,那么估計類條件概率的策略可以這樣:先假定其具有某種確定的概率分布形式,再基于訓(xùn)練樣本對概率分布的參數(shù)進(jìn)行估計。



這種參數(shù)化的方法雖然能使條件概率估計變得相對簡單,但估計結(jié)果的準(zhǔn)確性依賴于所假設(shè)的概率分布形式是否符合潛在的真實數(shù)據(jù)分布。在現(xiàn)實應(yīng)用中,要做出能較好地接近潛在真實分布的假設(shè),往往需要在一定程度上利用關(guān)于應(yīng)用任務(wù)本身的經(jīng)驗知識,否則若僅憑猜測來假設(shè)概率分布形式,很可能產(chǎn)生誤導(dǎo)性結(jié)果。既然是似然,經(jīng)驗自然是重要的。

7.3樸素貝葉斯分類器

上文可知,基于貝葉斯公式P(c|x)=P(c)P(x|c)/ P(x)來估計后驗概率P(c|x)的困難是:類條件概率P(x|c)是所有屬性的聯(lián)合概率,難以從有限的訓(xùn)練樣本直接估計而得。為解決該問題,樸素貝葉斯分類器(na?ve bayes classifer)采用了屬性條件獨立性假設(shè)(attributeconditional independence assumption),對已知類別,假設(shè)所有屬性相互獨立。換言之,假設(shè)每個屬性獨立地對分類結(jié)果發(fā)生影響。


文中的西瓜集例子,可以很好地理解上面的求解,重點是計算樣本集中不同屬性的類別數(shù)。可參考CSDN博客http://blog.csdn.net/fjssharpsword/article/details/53021776來理解。


如此,通過拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題,并且在訓(xùn)練集變大時,修正過程所引入的先驗(Prior)的影響也會逐漸變得可忽略,使得估值趨向于實際概率值。

在現(xiàn)實任務(wù)中樸素貝葉斯分類器有很多種使用方式。例如,若任務(wù)對預(yù)測速度要求較高,則對給定訓(xùn)練集,可將樸素貝葉斯分類器涉及的所有概率估值事先計算好存儲起來,這樣在進(jìn)行預(yù)測時只需查表即可進(jìn)行判別;若任務(wù)數(shù)據(jù)更替頻繁,則可采用懶惰學(xué)習(xí)(lazy learning)方式,先不進(jìn)行任何訓(xùn)練,待收到預(yù)測請求時再根據(jù)當(dāng)前數(shù)據(jù)集進(jìn)行概率估值;若數(shù)據(jù)不斷增加,則可在現(xiàn)有估值基礎(chǔ)上,僅對新增樣本的屬性值所涉及的概率估值進(jìn)行計數(shù)修正即可實現(xiàn)增量學(xué)習(xí)。懶惰學(xué)習(xí)和增量學(xué)習(xí)的思維,其實也是貫穿一種分治策略。???

7.4半樸素貝葉斯分類器

為解決貝葉斯公式中估計后驗概率P(c|x)中類條件概率P(x|c)估計的困難,樸素貝葉斯分類器假設(shè)屬性條件獨立性,但在現(xiàn)實任務(wù)中這個假設(shè)并不總能成立。為此,在屬性條件獨立假設(shè)基礎(chǔ)上,進(jìn)一步考慮屬性間的關(guān)系,提出半樸素貝葉斯分類器(semi-na?ve bayes classifier)的學(xué)習(xí)方法。

半樸素貝葉斯分類器的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需進(jìn)行聯(lián)合概率完全計算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。獨依賴估計(one-dependent estimator,ode)是半樸素貝葉斯分類器最常用的一種策略。所謂獨依賴,就是假設(shè)每個屬性在類別之外最多僅依賴一個其他屬性,即:



?

7.5貝葉斯網(wǎng)

屬性之間的依賴關(guān)系,可通過貝葉斯網(wǎng)(bayesian network)也稱信念(belief network)網(wǎng)來刻畫,其借助有向無環(huán)圖(Directed Acyclic Graph,DAG)并使用條件概率表(ConditionalProbability Table,CPT)來描述屬性的聯(lián)合概率分布。假定所有屬性均為離散型,對于連續(xù)屬性,條件概率表可推廣為條件概率密度函數(shù)。

具體來說,一個貝葉斯網(wǎng)B由結(jié)構(gòu)G和參數(shù)Θ兩部分構(gòu)成,即B=<G,Θ>。網(wǎng)絡(luò)結(jié)構(gòu)G是一個有向無環(huán)圖,其每個結(jié)點對應(yīng)一個屬性,若兩個屬性有直接依賴關(guān)系,則它們由一條邊連接起來;參數(shù)Θ定量描述了這種依賴關(guān)系。假設(shè)屬性x i在G中的父結(jié)點集為π i,則Θ包含了每個屬性的條件概率表:Θx i|π i=P B(x i|π i)。文中有圖和表分別展示G和B。


2)學(xué)習(xí)

若貝葉斯網(wǎng)結(jié)構(gòu)已知,即屬性間的依賴關(guān)系已知,按照上文定義,只需通過對訓(xùn)練樣本計數(shù),估計出每個結(jié)點的條件概率表即可。但現(xiàn)實應(yīng)用中并不知曉網(wǎng)絡(luò)結(jié)構(gòu),因此,貝葉斯網(wǎng)學(xué)習(xí)的首要任務(wù)是根據(jù)訓(xùn)練數(shù)據(jù)集來找出結(jié)構(gòu)最恰當(dāng)?shù)呢惾~斯網(wǎng)。評分搜索是求解這一問題的常用辦法,具體來說,先定義一個評分函數(shù)(score function),以此來評估貝葉斯網(wǎng)與訓(xùn)練數(shù)據(jù)的契合度,然后基于這個評分函數(shù)來尋找結(jié)構(gòu)最優(yōu)的貝葉斯網(wǎng)。評分函數(shù)定義了獲得怎樣貝葉斯網(wǎng)的歸納偏好。

要找結(jié)構(gòu),先定義評分函數(shù),然后基于評分函數(shù)找最優(yōu)結(jié)構(gòu)。常用評分函數(shù)通常基于信息論準(zhǔn)則,此類準(zhǔn)則將學(xué)習(xí)問題看作一個數(shù)據(jù)壓縮任務(wù),學(xué)習(xí)的目標(biāo)是找到一個能以最短編碼長度描述訓(xùn)練數(shù)據(jù)的模型,此時編碼的長度包括了描述自身需要的字節(jié)長度和使用該模型描述數(shù)據(jù)所需的字節(jié)長度。對貝葉斯網(wǎng)學(xué)習(xí)而言,模型就是一個貝葉斯網(wǎng),同時,每個貝葉斯網(wǎng)描述了一個在訓(xùn)練數(shù)據(jù)上的概率分布,自由一套編碼機(jī)制能使那些經(jīng)常出現(xiàn)的樣本有更短的編碼。于是,應(yīng)該選擇那個綜合編碼長度(包括描述網(wǎng)絡(luò)和編碼數(shù)據(jù))最短的貝葉斯網(wǎng),這就是最小描述長度(minimal description length,MDL)準(zhǔn)則。

給定訓(xùn)練集D={x 1,x 2,…,x n},貝葉斯網(wǎng)B=<G, Θ>在D上的評分函數(shù)為:


然而,從所有可能的網(wǎng)絡(luò)結(jié)構(gòu)空間搜索(屬性數(shù)d的規(guī)模決定)最優(yōu)貝葉斯網(wǎng)結(jié)構(gòu)是一個NP問題,難以快速求解。有兩種常用的策略能在有限時間內(nèi)求得近似解:

第一種貪心法,從某個網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),每次調(diào)整一條邊(增、刪、改方向),直到評分函數(shù)不再降低為止;

第二種通過給網(wǎng)絡(luò)結(jié)構(gòu)施加約束來削減搜索空間,如將網(wǎng)路結(jié)構(gòu)限定為樹形結(jié)構(gòu)等,模型要理想才能計算出,現(xiàn)實是復(fù)雜的。

3)推斷

貝葉斯網(wǎng)絡(luò)訓(xùn)練好之后就能用來回答查詢(query),即通過一些屬性變量的觀測值來推測其他屬性變量的取值。通過已知變量觀測值來推測待查詢變量的過程稱為推斷(inference),已知變量觀測值稱為證據(jù)(evidence)。輸入證據(jù),通過模型推斷出結(jié)論。

最理想的是直接根據(jù)貝葉斯網(wǎng)定義的聯(lián)合概率分布來精確計算后驗概率;然而,這樣的精確推斷已被證明是NP難得。換言之,當(dāng)網(wǎng)絡(luò)結(jié)點較多,連接稠密時,難以精確推斷,需借助近似推斷,通過降低精度要求,在有限時間內(nèi)求得近似解。在現(xiàn)實應(yīng)用中,貝葉斯網(wǎng)的近似推斷常采用吉布斯采樣算法(Gibbs sampling)來完成,這是一種隨機(jī)采用的方法,下面說明該算法。

問題:令Q={Q1,Q2,…,Qn}表示待查詢變量,E={E1,E2,…,Ek}為證據(jù)變量,已知其取值為e={e1,e2,…,ek}。目標(biāo)是計算后驗概率P(Q=q|E=e),其中q={q1,q2,…,qn}是待查詢變量的一組取值。

解答:

先隨機(jī)產(chǎn)生一個和證據(jù)E=e一致的樣本q 0作為初始點,然后每步從當(dāng)前樣本出發(fā)產(chǎn)生下一個樣本。具體來說,在第t次采樣中,算法先假設(shè)q t= q t-1,然后對非證據(jù)變量逐個進(jìn)行采樣改變其取值,采樣概率根據(jù)貝葉斯網(wǎng)B和其他變量的當(dāng)前取值(即Z=z)計算獲得。


吉布斯采樣是在貝葉斯網(wǎng)所有變量的聯(lián)合狀態(tài)空間與證據(jù)E=e一致的子空間中進(jìn)行隨機(jī)漫步(random walk)。每一步僅依賴前一步的狀態(tài),這是一個馬爾可夫鏈(Markov chain)。在一定條件下,無論從什么初始狀態(tài)開始,馬爾可夫鏈第t步的狀態(tài)分布在t->∞時必收斂于一個平穩(wěn)分布(stationary distribution);對于吉布斯采樣來說,這個分布恰好就是P(Q|E=e)。因此,在T很大時,吉布斯采樣相當(dāng)于根據(jù)P(Q|E=e)采樣,從而保證收斂于P(Q=q|E=e)。

值得注意的是,由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。此外,若貝葉斯網(wǎng)中存在極端概率0或1,則不能保證馬爾可夫鏈存在平穩(wěn)分布,此時吉布斯采樣會給出錯誤的估計結(jié)果。

?

7.6EM算法

上文的假設(shè)是訓(xùn)練樣本所有屬性變量的值都已被觀測到,即訓(xùn)練樣本是完整的。但在現(xiàn)實應(yīng)用中往往會遇到不完整的訓(xùn)練樣本,即訓(xùn)練樣本的屬性變量值未知。問題是在這種存在未觀測變量的情形下,是否仍能對模型參數(shù)進(jìn)行估計呢?

未觀測變量也稱為隱變量(latent variable)。令X表示已觀測變量集,Z表示隱變量集,Θ表示模型參數(shù)。若欲對Θ作極大似然估計,則應(yīng)最大化對數(shù)似然:LL(Θ|X,Z)=ln P(X,Z|Θ)。不過Z是隱變量,無法直接求解,可通過對Z計算期望,來最大化已觀測數(shù)據(jù)的對數(shù)邊際似然(marginal likelihood):


簡單來說,EM算法使用兩個步驟交替計算:第一步是期望E步,利用當(dāng)前估計的參數(shù)值來計算對數(shù)似然的期望值;第二步是最大化M步,尋找能使E步產(chǎn)生的似然期望最大化的參數(shù)值。然后新得到的參數(shù)值重新被用于E步,…,直至收斂到局部最優(yōu)解。

EM算法可以看作用坐標(biāo)下降法(coordinate descent)來最大化對數(shù)似然下界的過程。事實上,隱變量估計問題也可通過梯度下降等優(yōu)化算法求解,但由于求和的項數(shù)將隨著隱變量的數(shù)目以指數(shù)級上升,會給梯度計算帶來麻煩。而EM算法則可看作一種非梯度優(yōu)化方法。

坐標(biāo)下降法是一種非梯度優(yōu)化方法,在每步迭代中沿一個坐標(biāo)方向進(jìn)行搜索,通過循環(huán)使用不同的坐標(biāo)方向來達(dá)到目標(biāo)函數(shù)的局部極小值。


總結(jié)

以上是生活随笔為你收集整理的机器学习笔记(七)贝叶斯分类器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。