贝叶斯决策思想的应用与延伸
生活随笔
收集整理的這篇文章主要介紹了
贝叶斯决策思想的应用与延伸
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1.貝葉斯的應(yīng)用
以下舉一些實(shí)際例子來(lái)說(shuō)明貝葉斯方法被運(yùn)用的普遍性,這里主要集中在機(jī)器學(xué)習(xí)方面,因?yàn)槲也皇菍W(xué)經(jīng)濟(jì)的,否則還可以找到一堆經(jīng)濟(jì)學(xué)的例子。1.1 中文分詞
貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。比如中文分詞領(lǐng)域就用到了貝葉斯。Google 研究員吳軍在《數(shù)學(xué)之美》系列中就有一篇是介紹中文分詞的,這里只介紹一下核心的思想,不做贅述,詳細(xì)請(qǐng)參考吳軍的文章。分詞問(wèn)題的描述為:給定一個(gè)句子(字串),如:南京市長(zhǎng)江大橋
如何對(duì)這個(gè)句子進(jìn)行分詞(詞串)才是最靠譜的。例如:
1. 南京市/長(zhǎng)江大橋
2. 南京/市長(zhǎng)/江大橋
這兩個(gè)分詞,到底哪個(gè)更靠譜呢?
我們用貝葉斯公式來(lái)形式化地描述這個(gè)問(wèn)題,令 X 為字串(句子),Y 為詞串(一種特定的分詞假設(shè))。我們就是需要尋找使得 P(Y|X) 最大的 Y ,使用一次貝葉斯可得:
P(Y|X) ∝ P(Y)*P(X|Y)
用自然語(yǔ)言來(lái)說(shuō)就是 這種分詞方式(詞串)的可能性 乘以這個(gè)詞串生成我們的句子的可能性。我們進(jìn)一步容易看到:可以近似地將 P(X|Y) 看作是恒等于 1 的,因?yàn)槿我饧傧氲囊环N分詞方式之下生成我們的句子總是精準(zhǔn)地生成的(只需把分詞之間的分界符號(hào)扔掉即可)。于是,我們就變成了去最大化 P(Y) ,也就是尋找一種分詞使得這個(gè)詞串(句子)的概率最大化。而如何計(jì)算一個(gè)詞串:W1, W2, W3, W4 .. 的可能性呢? 我們知道,根據(jù)聯(lián)合概率的公式展開(kāi):P(W1, W2, W3, W4 ..) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) * .. 于是我們可以通過(guò)一系列的條件概率(右式)的乘積來(lái)求整個(gè)聯(lián)合概率。然而不幸的是隨著條件數(shù)目的增加(P(Wn|Wn-1,Wn-2,..,W1) 的條件有 n-1 個(gè)),數(shù)據(jù)稀疏問(wèn)題也會(huì)越來(lái)越嚴(yán)重,即便語(yǔ)料庫(kù)再大也無(wú)法統(tǒng)計(jì)出一個(gè)靠譜的 P(Wn|Wn-1,Wn-2,..,W1) 來(lái)。 為了緩解這個(gè)問(wèn)題,計(jì)算機(jī)科學(xué)家們一如既往地使用了“天真”假設(shè):我們假設(shè)句子中一個(gè)詞的出現(xiàn)概率只依賴(lài)于它前面的有限的 k 個(gè)詞(k 一般不超過(guò) 3,如果只依賴(lài)于前面的一個(gè)詞,就是2元語(yǔ)言模型(2-gram),同理有 3-gram 、 4-gram 等),這個(gè)就是所謂的“有限地平線”假設(shè)。雖然這個(gè)假設(shè)很傻很天真,但結(jié)果卻表明它的結(jié)果往往是很好很強(qiáng)大的,后面要提到的樸素貝葉斯方法使用的假設(shè)跟這個(gè)精神上是完全一致的,我們會(huì)解釋為什么像這樣一個(gè)天真的假設(shè)能夠得到強(qiáng)大的結(jié)果。目前我們只要知道,有了這個(gè)假設(shè),剛才那個(gè)乘積就可以改寫(xiě)成: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) .. (假設(shè)每個(gè)詞只依賴(lài)于它前面的一個(gè)詞)。而統(tǒng)計(jì) P(W2|W1) 就不再受到數(shù)據(jù)稀疏問(wèn)題的困擾了。對(duì)于我們上面提到的例子“南京市長(zhǎng)江大橋”,如果按照自左到右的貪婪方法分詞的話(huà),結(jié)果就成了“南京市長(zhǎng)/江大橋”。但如果按照貝葉斯分詞的話(huà)(假設(shè)使用 3-gram),由于“南京市長(zhǎng)”和“江大橋”在語(yǔ)料庫(kù)中一起出現(xiàn)的頻率為 0 ,這個(gè)整句的概率便會(huì)被判定為 0 。 從而使得“南京市/長(zhǎng)江大橋”這一分詞方式勝出。
1.2 貝葉斯圖像識(shí)別
貝葉斯方法是一個(gè)非常 general 的推理框架。其核心理念可以描述成:Analysis by Synthesis (通過(guò)合成來(lái)分析)。06 年的認(rèn)知科學(xué)新進(jìn)展上有一篇 paper 就是講用貝葉斯推理來(lái)解釋視覺(jué)識(shí)別的,一圖勝千言,下圖就是摘自這篇 paper :首先是視覺(jué)系統(tǒng)提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 E 還是 F 還是等號(hào)),然后使用一個(gè)自頂向下的驗(yàn)證來(lái)比較到底哪個(gè)概念最佳地解釋了觀察到的圖像。
1.3?EM 算法與基于模型的聚類(lèi)
聚類(lèi)是一種無(wú)指導(dǎo)的機(jī)器學(xué)習(xí)問(wèn)題,問(wèn)題描述:給你一堆數(shù)據(jù)點(diǎn),讓你將它們最靠譜地分成一堆一堆的。聚類(lèi)算法很多,不同的算法適應(yīng)于不同的問(wèn)題,這里僅介紹一個(gè)基于模型的聚類(lèi),該聚類(lèi)算法對(duì)數(shù)據(jù)點(diǎn)的假設(shè)是,這些數(shù)據(jù)點(diǎn)分別是圍繞 K 個(gè)核心的 K 個(gè)正態(tài)分布源所隨機(jī)生成的,使用 Han JiaWei 的《Data Ming: Concepts and Techniques》中的圖:圖中有兩個(gè)正態(tài)分布核心,生成了大致兩堆點(diǎn)。我們的聚類(lèi)算法就是需要根據(jù)給出來(lái)的那些點(diǎn),算出這兩個(gè)正態(tài)分布的核心在什么位置,以及分布的參數(shù)是多少。這很明顯又是一個(gè)貝葉斯問(wèn)題,但這次不同的是,答案是連續(xù)的且有無(wú)窮多種可能性,更糟的是,只有當(dāng)我們知道了哪些點(diǎn)屬于同一個(gè)正態(tài)分布圈的時(shí)候才能夠?qū)@個(gè)分布的參數(shù)作出靠譜的預(yù)測(cè),現(xiàn)在兩堆點(diǎn)混在一塊我們又不知道哪些點(diǎn)屬于第一個(gè)正態(tài)分布,哪些屬于第二個(gè)。反過(guò)來(lái),只有當(dāng)我們對(duì)分布的參數(shù)作出了靠譜的預(yù)測(cè)時(shí)候,才能知道到底哪些點(diǎn)屬于第一個(gè)分布,那些點(diǎn)屬于第二個(gè)分布。這就成了一個(gè)先有雞還是先有蛋的問(wèn)題了。為了解決這個(gè)循環(huán)依賴(lài),總有一方要先打破僵局,說(shuō),不管了,我先隨便整一個(gè)值出來(lái),看你怎么變,然后我再根據(jù)你的變化調(diào)整我的變化,然后如此迭代著不斷互相推導(dǎo),最終收斂到一個(gè)解。這就是 EM 算法。
EM 的意思是“Expectation-Maximazation”,在這個(gè)聚類(lèi)問(wèn)題里面,我們是先隨便猜一下這兩個(gè)正態(tài)分布的參數(shù):如核心在什么地方,方差是多少。然后計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)更可能屬于第一個(gè)還是第二個(gè)正態(tài)分布圈,這個(gè)是屬于 Expectation 一步。有了每個(gè)數(shù)據(jù)點(diǎn)的歸屬,我們就可以根據(jù)屬于第一個(gè)分布的數(shù)據(jù)點(diǎn)來(lái)重新評(píng)估第一個(gè)分布的參數(shù)(從蛋再回到雞),這個(gè)是 Maximazation 。如此往復(fù),直到參數(shù)基本不再發(fā)生變化為止。這個(gè)迭代收斂過(guò)程中的貝葉斯方法在第二步,根據(jù)數(shù)據(jù)點(diǎn)求分布的參數(shù)上面。
2.樸素貝葉斯
樸素貝葉斯方法是很特別的方法,所以值得介紹一下。用樸素貝葉斯在垃圾郵件過(guò)濾中的應(yīng)用來(lái)舉例說(shuō)明。2.1 貝葉斯垃圾郵件過(guò)濾器
問(wèn)題是什么?問(wèn)題是,給定一封郵件,判定它是否屬于垃圾郵件。按照先例,我們還是用 D 來(lái)表示這封郵件,注意 D 由 N 個(gè)單詞組成。我們用 h+ 來(lái)表示垃圾郵件,h- 表示正常郵件。問(wèn)題可以形式化地描述為求:P(h+|D) = P(h+) * P(D|h+) / P(D)
P(h-|D) = P(h-) * P(D|h-) / P(D)
其中 P(h+) 和 P(h-) 這兩個(gè)先驗(yàn)概率都是很容易求出來(lái)的,只需要計(jì)算一個(gè)郵件庫(kù)里面垃圾郵件和正常郵件的比例就行了。然而 P(D|h+) 卻不容易求,因?yàn)?D 里面含有 N 個(gè)單詞 d1, d2, d3, .. ,所以P(D|h+) = P(d1,d2,..,dn|h+) 。我們又一次遇到了數(shù)據(jù)稀疏性,為什么這么說(shuō)呢?P(d1,d2,..,dn|h+) 就是說(shuō)在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大!開(kāi)玩笑,每封郵件都是不同的,世界上有無(wú)窮多封郵件。瞧,這就是數(shù)據(jù)稀疏性,因?yàn)榭梢钥隙ǖ卣f(shuō),你收集的訓(xùn)練數(shù)據(jù)庫(kù)不管里面含了多少封郵件,也不可能找出一封跟目前這封一模一樣的。結(jié)果呢?我們又該如何來(lái)計(jì)算 P(d1,d2,..,dn|h+) 呢?
我們將 P(d1,d2,..,dn|h+) ?擴(kuò)展為: P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 。熟悉這個(gè)式子嗎?這里我們會(huì)使用一個(gè)更激進(jìn)的假設(shè),我們假設(shè) di 與 di-1 是完全條件無(wú)關(guān)的,于是式子就簡(jiǎn)化為 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 。這個(gè)就是所謂的條件獨(dú)立假設(shè),也正是樸素貝葉斯方法的樸素之處。而計(jì)算 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 就太簡(jiǎn)單了,只要統(tǒng)計(jì) di 這個(gè)單詞在垃圾郵件中出現(xiàn)的頻率即可。
2.2 為什么樸素貝葉斯方法令人詫異地好
樸素貝葉斯方法的條件獨(dú)立假設(shè)看上去很傻很天真,為什么結(jié)果卻很好很強(qiáng)大呢?就拿一個(gè)句子來(lái)說(shuō),我們?cè)趺茨荇斆У芈暦Q(chēng)其中任意一個(gè)單詞出現(xiàn)的概率只受到它前面的 3 個(gè)或 4 個(gè)單詞的影響呢?別說(shuō) 3 個(gè),有時(shí)候一個(gè)單詞的概率受到上一句話(huà)的影響都是絕對(duì)可能的。那么為什么這個(gè)假設(shè)在實(shí)際中的表現(xiàn)卻不比決策樹(shù)差呢?有人對(duì)此提出了一個(gè)理論解釋,并且建立了什么時(shí)候樸素貝葉斯的效果能夠等價(jià)于非樸素貝葉斯的充要條件,這個(gè)解釋的核心就是:有些獨(dú)立假設(shè)在各個(gè)分類(lèi)之間的分布都是均勻的所以對(duì)于似然的相對(duì)大小不產(chǎn)生影響;即便不是如此,也有很大的可能性各個(gè)獨(dú)立假設(shè)所產(chǎn)生的消極影響或積極影響互相抵消,最終導(dǎo)致結(jié)果受到的影響不大。具體的數(shù)學(xué)公式請(qǐng)參考[1]。3.層級(jí)貝葉斯模型
層級(jí)貝葉斯模型是現(xiàn)代貝葉斯方法的標(biāo)志性建筑之一。前面講的貝葉斯,都是在同一個(gè)事物層次上的各個(gè)因素之間進(jìn)行統(tǒng)計(jì)推理,然而層次貝葉斯模型在哲學(xué)上更深入了一層,將這些因素背后的因素(原因的原因,原因的原因,以此類(lèi)推)囊括進(jìn)來(lái)。一個(gè)教科書(shū)例子是:如果你手頭有 N 枚硬幣,它們是同一個(gè)工廠鑄出來(lái)的,你把每一枚硬幣擲出一個(gè)結(jié)果,然后基于這 N 個(gè)結(jié)果對(duì)這 N 個(gè)硬幣的θ(出現(xiàn)正面的比例)進(jìn)行推理。如果根據(jù)最大似然,每個(gè)硬幣的 θ 不是1就是0 ,然而我們又知道每個(gè)硬幣的 p(θ) 是有一個(gè)先驗(yàn)概率的,也許是一個(gè) beta 分布。也就是說(shuō),每個(gè)硬幣的實(shí)際投擲結(jié)果 Xi 服從以 θ 為中心的正態(tài)分布,而 θ 又服從另一個(gè)以 Ψ 為中心的 beta 分布。層層因果關(guān)系就體現(xiàn)出來(lái)了。進(jìn)而 Ψ 還可能依賴(lài)于因果鏈上更上層的因素,以此類(lèi)推。3.1?隱馬可夫模型(HMM)
這個(gè)東西我也沒(méi)學(xué)明白,先打個(gè)Mark~~ 推薦吳軍寫(xiě)的數(shù)學(xué)之美~~因?yàn)?#xff0c;只是想了解,專(zhuān)業(yè)上沒(méi)有用到,在這里就不討論了~~
4.參考文獻(xiàn)
[1]Harry Zhang,The Optimality of Naive Bayes.Faculty of Computer Science,University of New Brunswick. [2]http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/總結(jié)
以上是生活随笔為你收集整理的贝叶斯决策思想的应用与延伸的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 基于贝叶斯决策理论的分类器
- 下一篇: 不朽著作《飞鸽》