李航《统计学习方法》-----朴素贝叶斯
樸素貝葉斯法na?ve Bayes,在na?ve的中間字母上其實有兩個點,查了一下才發現是法語中的分音符,在發音過程中發揮作用。但這不是重要的,重要的是在這種學習方法中貝葉斯承擔了什么樣的角色。
首先簡單證明一下貝葉斯公式。聯合概率Joint probabilities是可逆的,只要同時滿足兩個條件就可以,無所謂先滿足哪個條件,所以可以有兩種寫法,都是利用了條件概率Conditionalprobabilities和乘法,因為條件概率就是滿足條件之后另外一個事件的概率,這時候再乘條件滿足的概率,結果就是聯合概率。在最后貝葉斯公式的分母中,P(A)稱作先驗概率,也稱作邊際概率Marginal probabilities,一般通過全概率公式求出。
提到貝葉斯定理,就必須要提到貝葉斯學派才能了解這種方法的思想,與其對應的是頻率學派。頻率學派認為模型的參數是固定的,只不過是未知的,實驗次數大到一定程度,頻率會穩定于一個固定值,即概率。具體主要通過似然函數求解,如最大似然估計MLE;而貝葉斯是從數據出發,認為參數也是隨機變量,擁有概率分布,通過后驗概率計算,如最大后驗概率MAP,舊的后驗會成為新的先驗,如此重復下去。貝葉斯學派加入了先驗概率,靠譜的先驗概率可以使含有隨機噪聲的數據更加健壯。可以把頻率學派中的最大似然看作各種猜測先驗概率相等的特殊情況。
我們會發現,頻率學派和貝葉斯學派都不約而同地提到了模型,而模型正好是統計機器學習的三要素之一。樸素貝葉斯法,顧名思義,選擇了貝葉斯方法構造分類器。輸入依然是特征向量x,輸出是類標記y。我們希望通過訓練數據學習聯合概率分布P(X,Y),這說明樸素貝葉斯屬于生成模型。具體又是學習y的先驗概率和條件概率P(x|y)。既然已經有訓練數據,特征和對應的標簽類別是已知的,所以根據統計可以很容易地知道y的先驗概率。而條件概率就比較棘手了,因為特征空間通常是高維的,所以在已知某個類別下的條件概率有好多個,所以我們做了一個特別重要的假設,叫做條件獨立性假設:在類確定的條件下,用于分類的特征是條件獨立的。這一假設使得模型包含的條件概率的數量大為減少,簡化了學習和預測,缺點是分類的性能不一定很高。
下面還是從三要素的方法研究一下樸素貝葉斯:
模型
前面已經提到了,樸素貝葉斯是生成模型,這是因為它會對聯合概率密度P(X,Y)進行估計。具體模型由條件概率表示,所以還屬于概率模型(由決策函數表示的模型為非概率模型)。在參考鏈接3中有這么一句話:貝葉斯非參數模型中的參數數量可以隨著數據增大或者減小以適應模型的變化。比較流行的貝葉斯非參數模型還有高斯回歸過程,隱含狄利克雷分布(LDA)。選擇貝葉斯作為模型是因為我們可以考慮先驗概率,特殊的,先驗概率相等時,只能依靠似然函數。
策略
我們知道,策略有兩種,分別是經驗風險最小化和結構風險最小化,前者認為平均損失最小化的模型是最優模型,后者在經驗風險最小化的同時還要防止過擬合。從這個角度看,因為極大似然方法因為認為模型參數是固定不變的,就很容易過擬合,而樸素貝葉斯方法選擇了最大后驗概率作為策略,選擇0-1函數作為損失函數。按照書中的推導,為了使期望風險最小化,應該使已知輸入特征的后驗概率最大化。所以樸素貝葉斯的策略應該是結構風險最小化的策略,先驗概率表示了模型的復雜度。
學習方法
方法主要是先估算出先驗概率和條件概率,取使得后驗概率最大時的y作為輸出。根據根據方法采用的是貝葉斯估計還是極大似然函數,又分為兩種方法。極大似然估計比較簡單,就是利用統計的頻率作為概率。但使用極大似然估計可能會出現所要估計的概率值為0的情況,可以采用貝葉斯估計避免。具體來說,對先驗概率P(Y),分母和分母分別在極大似然估計的統計上加常數lamda和K*lamda,K表示分類標簽數。對條件概率P(X|Y),分子和分母分別加lamda和S*lamda,S代表特征空間的維數。我們常取lamda=1,這是稱作拉普拉斯平滑(Laplace smoothing)。
下面再回顧一下信號檢測與估計課程中的貝葉斯估計。
至于為什么把它叫做貝葉斯估計,是因為可以根據貝葉斯公式把聯合概率密度重寫,將問題轉換為使條件平均代價最小。
接下來就主要看代價函數的選取,當代價函數選擇平方損失函數時,就是最小均方誤差估計。當代價函數選擇0-1損失函數時,是最大后驗估計。估計量使得其后驗概率最大。
當代價函數選擇絕對損失函數時,貝葉斯估計就是條件中值估計,估計量是隨機參數變量的條件中值。
三種代價函數下的貝葉斯估計可以是統計的:當被估計量的后驗概率密度函數是高斯型的,三種代價函數下的估計量相同。這就是最佳估計的不變性。
在通信的譯碼中也有貝葉斯的應用。最小錯誤概率準則(采用0-1損失函數),即最大后驗概率準則。當所有可能消息序列的先驗概率相等,最大后驗概率準則又等價于最大似然譯碼準則。在輸入不等概分布時采用最大似然譯碼準則的平均錯誤概率不是最小。
Refernence:
總結
以上是生活随笔為你收集整理的李航《统计学习方法》-----朴素贝叶斯的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 万字长文丨7个经典问题,助你拿下Java
- 下一篇: 吴恩达作业8:三层神经网络实现手势数字的