机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑
數學基礎:
數學基礎是貝葉斯決策論Bayesian DecisionTheory,和傳統統計學概率定義不同。
頻率學派認為頻率是是自然屬性,客觀存在的。
貝葉斯學派,從觀察這出發,事物的客觀隨機性只是觀察者不知道結果,也就是觀察者的知識不完備,對于知情者而言,事物沒有隨機性,隨機性的根源不是來源于事物,而是來自于觀察者對事物的只是狀態。
從這個角度而言,貝葉斯學派是唯心主義,頻率學派是唯物主義。
貝葉斯決策論Bayesian DecisionTheory
貝葉斯決策是在某個先驗分布下使得平均風險最小得決策。
參數估計
分為極大似然估計(Maximum Likelihood Estimate)和極大后驗概率估計(Maximum a posteriori estimation)
極大似然估計(Maximum Likelihood Estimate),使所有得樣本發生得概率最大,這個不考慮先驗概率得影響,屬于頻率派得做法.
θ?=argmaxθ∏i=1Np(xi∣θ)\theta^* = argmax_{\theta} \quad \prod_{i=1}^N p(x_i|\theta)\quad θ?=argmaxθ?i=1∏N?p(xi?∣θ)
極大后驗概率估計(Maximum a posteriori estimation),為貝葉斯學派得做法,加入了后驗概率概念,p(θ\thetaθ|X)為參數θ\thetaθ在樣本X下得真實得出現概率,p(θ\thetaθ)為先驗概率。
θMAP=argmaxθ[lnp(θ)+∏i=1Np(xi∣θ)]\theta_{MAP} = argmax_{\theta} \quad [lnp(\theta) + \prod_{i=1}^N p(x_i|\theta)]\quad θMAP?=argmaxθ?[lnp(θ)+i=1∏N?p(xi?∣θ)]
可以看出極大后驗概率多了一個lnp(θ)\theta)θ),也就是增加了先驗。
樸素貝葉斯(Naive Bayes)
分為2個部分:樸素對應著獨立性假設,每個樣本都認為是相互獨立得,貝葉斯對應著后驗概率最大化。
貝葉斯估計在估計參數時使用了極大似然估計獲取先驗概率,做決策時使用得時MAP估計。
算法描述如下:
簡單理解(X—>Y): 通過訓練集數據,先計算出Y得分布概率,這個就是計算先驗概率,然后計算條件概率,也就是在已知分類Y得情況下為X(j)X^{(j)}X(j)的概率,就是X的某個屬性的概率,根據先驗概率和條件概率,可以求出x?x^{*}x?的發生概率,在哪種分類y=ckc_kck?下的概率最大,x?x^{*}x?就是哪種分類。
以下是西瓜書的描述,參考一下:
我們需要求的是使之最大的y=ckc_kck?,也就是哪個分類使之最大:
分為2步:
使用ML估計導出模型的具體參數:先驗概率,條件概率
使用MAP估計作為模型的決策,輸出使后驗概率最大化的類別。
拉普拉斯平滑
當λ\lambdaλ為0時極大似然估計,λ\lambdaλ為1為拉普拉斯平滑,K為x的第k個屬性可能的取值數目
總結
以上是生活随笔為你收集整理的机器学习:贝叶斯分类器,朴素贝叶斯,拉普拉斯平滑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习:Regression,第一个简
- 下一篇: list(map(list,zip(*a