日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

贝叶斯决策思想的应用与延伸

發(fā)布時間:2025/3/15 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 贝叶斯决策思想的应用与延伸 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.貝葉斯的應(yīng)用

以下舉一些實(shí)際例子來說明貝葉斯方法被運(yùn)用的普遍性,這里主要集中在機(jī)器學(xué)習(xí)方面,因?yàn)槲也皇菍W(xué)經(jīng)濟(jì)的,否則還可以找到一堆經(jīng)濟(jì)學(xué)的例子。

1.1 中文分詞

貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。比如中文分詞領(lǐng)域就用到了貝葉斯。Google 研究員吳軍在《數(shù)學(xué)之美》系列中就有一篇是介紹中文分詞的,這里只介紹一下核心的思想,不做贅述,詳細(xì)請參考吳軍的文章。
分詞問題的描述為:給定一個句子(字串),如:南京市長江大橋
如何對這個句子進(jìn)行分詞(詞串)才是最靠譜的。例如:
1. 南京市/長江大橋
2. 南京/市長/江大橋
這兩個分詞,到底哪個更靠譜呢?
我們用貝葉斯公式來形式化地描述這個問題,令 X 為字串(句子),Y 為詞串(一種特定的分詞假設(shè))。我們就是需要尋找使得 P(Y|X) 最大的 Y ,使用一次貝葉斯可得:
P(Y|X) ∝ P(Y)*P(X|Y)
用自然語言來說就是 這種分詞方式(詞串)的可能性 乘以這個詞串生成我們的句子的可能性。我們進(jìn)一步容易看到:可以近似地將 P(X|Y) 看作是恒等于 1 的,因?yàn)槿我饧傧氲囊环N分詞方式之下生成我們的句子總是精準(zhǔn)地生成的(只需把分詞之間的分界符號扔掉即可)。于是,我們就變成了去最大化 P(Y) ,也就是尋找一種分詞使得這個詞串(句子)的概率最大化。而如何計算一個詞串:W1, W2, W3, W4 .. 的可能性呢? 我們知道,根據(jù)聯(lián)合概率的公式展開:P(W1, W2, W3, W4 ..) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) * .. 于是我們可以通過一系列的條件概率(右式)的乘積來求整個聯(lián)合概率。然而不幸的是隨著條件數(shù)目的增加(P(Wn|Wn-1,Wn-2,..,W1) 的條件有 n-1 個),數(shù)據(jù)稀疏問題也會越來越嚴(yán)重,即便語料庫再大也無法統(tǒng)計出一個靠譜的 P(Wn|Wn-1,Wn-2,..,W1) 來。 為了緩解這個問題,計算機(jī)科學(xué)家們一如既往地使用了“天真”假設(shè):我們假設(shè)句子中一個詞的出現(xiàn)概率只依賴于它前面的有限的 k 個詞(k 一般不超過 3,如果只依賴于前面的一個詞,就是2元語言模型(2-gram),同理有 3-gram 、 4-gram 等),這個就是所謂的“有限地平線”假設(shè)。雖然這個假設(shè)很傻很天真,但結(jié)果卻表明它的結(jié)果往往是很好很強(qiáng)大的,后面要提到的樸素貝葉斯方法使用的假設(shè)跟這個精神上是完全一致的,我們會解釋為什么像這樣一個天真的假設(shè)能夠得到強(qiáng)大的結(jié)果。目前我們只要知道,有了這個假設(shè),剛才那個乘積就可以改寫成: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) .. (假設(shè)每個詞只依賴于它前面的一個詞)。而統(tǒng)計 P(W2|W1) 就不再受到數(shù)據(jù)稀疏問題的困擾了。對于我們上面提到的例子“南京市長江大橋”,如果按照自左到右的貪婪方法分詞的話,結(jié)果就成了“南京市長/江大橋”。但如果按照貝葉斯分詞的話(假設(shè)使用 3-gram),由于“南京市長”和“江大橋”在語料庫中一起出現(xiàn)的頻率為 0 ,這個整句的概率便會被判定為 0 。 從而使得“南京市/長江大橋”這一分詞方式勝出。

1.2 貝葉斯圖像識別

貝葉斯方法是一個非常 general 的推理框架。其核心理念可以描述成:Analysis by Synthesis (通過合成來分析)。06 年的認(rèn)知科學(xué)新進(jìn)展上有一篇 paper 就是講用貝葉斯推理來解釋視覺識別的,一圖勝千言,下圖就是摘自這篇 paper :

首先是視覺系統(tǒng)提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 E 還是 F 還是等號),然后使用一個自頂向下的驗(yàn)證來比較到底哪個概念最佳地解釋了觀察到的圖像。

1.3?EM 算法與基于模型的聚類

聚類是一種無指導(dǎo)的機(jī)器學(xué)習(xí)問題,問題描述:給你一堆數(shù)據(jù)點(diǎn),讓你將它們最靠譜地分成一堆一堆的。聚類算法很多,不同的算法適應(yīng)于不同的問題,這里僅介紹一個基于模型的聚類,該聚類算法對數(shù)據(jù)點(diǎn)的假設(shè)是,這些數(shù)據(jù)點(diǎn)分別是圍繞 K 個核心的 K 個正態(tài)分布源所隨機(jī)生成的,使用 Han JiaWei 的《Data Ming: Concepts and Techniques》中的圖:

圖中有兩個正態(tài)分布核心,生成了大致兩堆點(diǎn)。我們的聚類算法就是需要根據(jù)給出來的那些點(diǎn),算出這兩個正態(tài)分布的核心在什么位置,以及分布的參數(shù)是多少。這很明顯又是一個貝葉斯問題,但這次不同的是,答案是連續(xù)的且有無窮多種可能性,更糟的是,只有當(dāng)我們知道了哪些點(diǎn)屬于同一個正態(tài)分布圈的時候才能夠?qū)@個分布的參數(shù)作出靠譜的預(yù)測,現(xiàn)在兩堆點(diǎn)混在一塊我們又不知道哪些點(diǎn)屬于第一個正態(tài)分布,哪些屬于第二個。反過來,只有當(dāng)我們對分布的參數(shù)作出了靠譜的預(yù)測時候,才能知道到底哪些點(diǎn)屬于第一個分布,那些點(diǎn)屬于第二個分布。這就成了一個先有雞還是先有蛋的問題了。為了解決這個循環(huán)依賴,總有一方要先打破僵局,說,不管了,我先隨便整一個值出來,看你怎么變,然后我再根據(jù)你的變化調(diào)整我的變化,然后如此迭代著不斷互相推導(dǎo),最終收斂到一個解。這就是 EM 算法。
EM 的意思是“Expectation-Maximazation”,在這個聚類問題里面,我們是先隨便猜一下這兩個正態(tài)分布的參數(shù):如核心在什么地方,方差是多少。然后計算出每個數(shù)據(jù)點(diǎn)更可能屬于第一個還是第二個正態(tài)分布圈,這個是屬于 Expectation 一步。有了每個數(shù)據(jù)點(diǎn)的歸屬,我們就可以根據(jù)屬于第一個分布的數(shù)據(jù)點(diǎn)來重新評估第一個分布的參數(shù)(從蛋再回到雞),這個是 Maximazation 。如此往復(fù),直到參數(shù)基本不再發(fā)生變化為止。這個迭代收斂過程中的貝葉斯方法在第二步,根據(jù)數(shù)據(jù)點(diǎn)求分布的參數(shù)上面。

2.樸素貝葉斯

樸素貝葉斯方法是很特別的方法,所以值得介紹一下。用樸素貝葉斯在垃圾郵件過濾中的應(yīng)用來舉例說明。

2.1 貝葉斯垃圾郵件過濾器

問題是什么?問題是,給定一封郵件,判定它是否屬于垃圾郵件。按照先例,我們還是用 D 來表示這封郵件,注意 D 由 N 個單詞組成。我們用 h+ 來表示垃圾郵件,h- 表示正常郵件。問題可以形式化地描述為求:

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h-|D) = P(h-) * P(D|h-) / P(D)
其中 P(h+) 和 P(h-) 這兩個先驗(yàn)概率都是很容易求出來的,只需要計算一個郵件庫里面垃圾郵件和正常郵件的比例就行了。然而 P(D|h+) 卻不容易求,因?yàn)?D 里面含有 N 個單詞 d1, d2, d3, .. ,所以P(D|h+) = P(d1,d2,..,dn|h+) 。我們又一次遇到了數(shù)據(jù)稀疏性,為什么這么說呢?P(d1,d2,..,dn|h+) 就是說在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大!開玩笑,每封郵件都是不同的,世界上有無窮多封郵件。瞧,這就是數(shù)據(jù)稀疏性,因?yàn)榭梢钥隙ǖ卣f,你收集的訓(xùn)練數(shù)據(jù)庫不管里面含了多少封郵件,也不可能找出一封跟目前這封一模一樣的。結(jié)果呢?我們又該如何來計算 P(d1,d2,..,dn|h+) 呢?
我們將 P(d1,d2,..,dn|h+) ?擴(kuò)展為: P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 。熟悉這個式子嗎?這里我們會使用一個更激進(jìn)的假設(shè),我們假設(shè) di 與 di-1 是完全條件無關(guān)的,于是式子就簡化為 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 。這個就是所謂的條件獨(dú)立假設(shè),也正是樸素貝葉斯方法的樸素之處。而計算 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 就太簡單了,只要統(tǒng)計 di 這個單詞在垃圾郵件中出現(xiàn)的頻率即可。

2.2 為什么樸素貝葉斯方法令人詫異地好

樸素貝葉斯方法的條件獨(dú)立假設(shè)看上去很傻很天真,為什么結(jié)果卻很好很強(qiáng)大呢?就拿一個句子來說,我們怎么能魯莽地聲稱其中任意一個單詞出現(xiàn)的概率只受到它前面的 3 個或 4 個單詞的影響呢?別說 3 個,有時候一個單詞的概率受到上一句話的影響都是絕對可能的。那么為什么這個假設(shè)在實(shí)際中的表現(xiàn)卻不比決策樹差呢?有人對此提出了一個理論解釋,并且建立了什么時候樸素貝葉斯的效果能夠等價于非樸素貝葉斯的充要條件,這個解釋的核心就是:有些獨(dú)立假設(shè)在各個分類之間的分布都是均勻的所以對于似然的相對大小不產(chǎn)生影響;即便不是如此,也有很大的可能性各個獨(dú)立假設(shè)所產(chǎn)生的消極影響或積極影響互相抵消,最終導(dǎo)致結(jié)果受到的影響不大。具體的數(shù)學(xué)公式請參考[1]。

3.層級貝葉斯模型

層級貝葉斯模型是現(xiàn)代貝葉斯方法的標(biāo)志性建筑之一。前面講的貝葉斯,都是在同一個事物層次上的各個因素之間進(jìn)行統(tǒng)計推理,然而層次貝葉斯模型在哲學(xué)上更深入了一層,將這些因素背后的因素(原因的原因,原因的原因,以此類推)囊括進(jìn)來。一個教科書例子是:如果你手頭有 N 枚硬幣,它們是同一個工廠鑄出來的,你把每一枚硬幣擲出一個結(jié)果,然后基于這 N 個結(jié)果對這 N 個硬幣的θ(出現(xiàn)正面的比例)進(jìn)行推理。如果根據(jù)最大似然,每個硬幣的 θ 不是1就是0 ,然而我們又知道每個硬幣的 p(θ) 是有一個先驗(yàn)概率的,也許是一個 beta 分布。也就是說,每個硬幣的實(shí)際投擲結(jié)果 Xi 服從以 θ 為中心的正態(tài)分布,而 θ 又服從另一個以 Ψ 為中心的 beta 分布。層層因果關(guān)系就體現(xiàn)出來了。進(jìn)而 Ψ 還可能依賴于因果鏈上更上層的因素,以此類推。

3.1?隱馬可夫模型(HMM)


這個東西我也沒學(xué)明白,先打個Mark~~ 推薦吳軍寫的數(shù)學(xué)之美~~因?yàn)?#xff0c;只是想了解,專業(yè)上沒有用到,在這里就不討論了~~

4.參考文獻(xiàn)

[1]Harry Zhang,The Optimality of Naive Bayes.Faculty of Computer Science,University of New Brunswick. [2]http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

總結(jié)

以上是生活随笔為你收集整理的贝叶斯决策思想的应用与延伸的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。