李航《统计学习方法》-----朴素贝叶斯
樸素貝葉斯法na?ve Bayes,在na?ve的中間字母上其實有兩個點,查了一下才發(fā)現(xiàn)是法語中的分音符,在發(fā)音過程中發(fā)揮作用。但這不是重要的,重要的是在這種學(xué)習(xí)方法中貝葉斯承擔(dān)了什么樣的角色。
首先簡單證明一下貝葉斯公式。聯(lián)合概率Joint probabilities是可逆的,只要同時滿足兩個條件就可以,無所謂先滿足哪個條件,所以可以有兩種寫法,都是利用了條件概率Conditionalprobabilities和乘法,因為條件概率就是滿足條件之后另外一個事件的概率,這時候再乘條件滿足的概率,結(jié)果就是聯(lián)合概率。在最后貝葉斯公式的分母中,P(A)稱作先驗概率,也稱作邊際概率Marginal probabilities,一般通過全概率公式求出。
提到貝葉斯定理,就必須要提到貝葉斯學(xué)派才能了解這種方法的思想,與其對應(yīng)的是頻率學(xué)派。頻率學(xué)派認(rèn)為模型的參數(shù)是固定的,只不過是未知的,實驗次數(shù)大到一定程度,頻率會穩(wěn)定于一個固定值,即概率。具體主要通過似然函數(shù)求解,如最大似然估計MLE;而貝葉斯是從數(shù)據(jù)出發(fā),認(rèn)為參數(shù)也是隨機變量,擁有概率分布,通過后驗概率計算,如最大后驗概率MAP,舊的后驗會成為新的先驗,如此重復(fù)下去。貝葉斯學(xué)派加入了先驗概率,靠譜的先驗概率可以使含有隨機噪聲的數(shù)據(jù)更加健壯。可以把頻率學(xué)派中的最大似然看作各種猜測先驗概率相等的特殊情況。
我們會發(fā)現(xiàn),頻率學(xué)派和貝葉斯學(xué)派都不約而同地提到了模型,而模型正好是統(tǒng)計機器學(xué)習(xí)的三要素之一。樸素貝葉斯法,顧名思義,選擇了貝葉斯方法構(gòu)造分類器。輸入依然是特征向量x,輸出是類標(biāo)記y。我們希望通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),這說明樸素貝葉斯屬于生成模型。具體又是學(xué)習(xí)y的先驗概率和條件概率P(x|y)。既然已經(jīng)有訓(xùn)練數(shù)據(jù),特征和對應(yīng)的標(biāo)簽類別是已知的,所以根據(jù)統(tǒng)計可以很容易地知道y的先驗概率。而條件概率就比較棘手了,因為特征空間通常是高維的,所以在已知某個類別下的條件概率有好多個,所以我們做了一個特別重要的假設(shè),叫做條件獨立性假設(shè):在類確定的條件下,用于分類的特征是條件獨立的。這一假設(shè)使得模型包含的條件概率的數(shù)量大為減少,簡化了學(xué)習(xí)和預(yù)測,缺點是分類的性能不一定很高。
下面還是從三要素的方法研究一下樸素貝葉斯:
模型
前面已經(jīng)提到了,樸素貝葉斯是生成模型,這是因為它會對聯(lián)合概率密度P(X,Y)進(jìn)行估計。具體模型由條件概率表示,所以還屬于概率模型(由決策函數(shù)表示的模型為非概率模型)。在參考鏈接3中有這么一句話:貝葉斯非參數(shù)模型中的參數(shù)數(shù)量可以隨著數(shù)據(jù)增大或者減小以適應(yīng)模型的變化。比較流行的貝葉斯非參數(shù)模型還有高斯回歸過程,隱含狄利克雷分布(LDA)。選擇貝葉斯作為模型是因為我們可以考慮先驗概率,特殊的,先驗概率相等時,只能依靠似然函數(shù)。
策略
我們知道,策略有兩種,分別是經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化,前者認(rèn)為平均損失最小化的模型是最優(yōu)模型,后者在經(jīng)驗風(fēng)險最小化的同時還要防止過擬合。從這個角度看,因為極大似然方法因為認(rèn)為模型參數(shù)是固定不變的,就很容易過擬合,而樸素貝葉斯方法選擇了最大后驗概率作為策略,選擇0-1函數(shù)作為損失函數(shù)。按照書中的推導(dǎo),為了使期望風(fēng)險最小化,應(yīng)該使已知輸入特征的后驗概率最大化。所以樸素貝葉斯的策略應(yīng)該是結(jié)構(gòu)風(fēng)險最小化的策略,先驗概率表示了模型的復(fù)雜度。
學(xué)習(xí)方法
方法主要是先估算出先驗概率和條件概率,取使得后驗概率最大時的y作為輸出。根據(jù)根據(jù)方法采用的是貝葉斯估計還是極大似然函數(shù),又分為兩種方法。極大似然估計比較簡單,就是利用統(tǒng)計的頻率作為概率。但使用極大似然估計可能會出現(xiàn)所要估計的概率值為0的情況,可以采用貝葉斯估計避免。具體來說,對先驗概率P(Y),分母和分母分別在極大似然估計的統(tǒng)計上加常數(shù)lamda和K*lamda,K表示分類標(biāo)簽數(shù)。對條件概率P(X|Y),分子和分母分別加lamda和S*lamda,S代表特征空間的維數(shù)。我們常取lamda=1,這是稱作拉普拉斯平滑(Laplace smoothing)。
下面再回顧一下信號檢測與估計課程中的貝葉斯估計。
至于為什么把它叫做貝葉斯估計,是因為可以根據(jù)貝葉斯公式把聯(lián)合概率密度重寫,將問題轉(zhuǎn)換為使條件平均代價最小。
接下來就主要看代價函數(shù)的選取,當(dāng)代價函數(shù)選擇平方損失函數(shù)時,就是最小均方誤差估計。當(dāng)代價函數(shù)選擇0-1損失函數(shù)時,是最大后驗估計。估計量使得其后驗概率最大。
當(dāng)代價函數(shù)選擇絕對損失函數(shù)時,貝葉斯估計就是條件中值估計,估計量是隨機參數(shù)變量的條件中值。
三種代價函數(shù)下的貝葉斯估計可以是統(tǒng)計的:當(dāng)被估計量的后驗概率密度函數(shù)是高斯型的,三種代價函數(shù)下的估計量相同。這就是最佳估計的不變性。
在通信的譯碼中也有貝葉斯的應(yīng)用。最小錯誤概率準(zhǔn)則(采用0-1損失函數(shù)),即最大后驗概率準(zhǔn)則。當(dāng)所有可能消息序列的先驗概率相等,最大后驗概率準(zhǔn)則又等價于最大似然譯碼準(zhǔn)則。在輸入不等概分布時采用最大似然譯碼準(zhǔn)則的平均錯誤概率不是最小。
Refernence:
總結(jié)
以上是生活随笔為你收集整理的李航《统计学习方法》-----朴素贝叶斯的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 万字长文丨7个经典问题,助你拿下Java
- 下一篇: 吴恩达作业8:三层神经网络实现手势数字的