最大似然估计MLE和最大后验估计MAP理解
1、頻率學(xué)派和貝葉斯派
頻率學(xué)派認(rèn)為參數(shù)是固定而未知的,關(guān)心似然函數(shù)。
貝葉斯派認(rèn)為參數(shù)是隨機(jī)的有分布的,關(guān)心后驗(yàn)分布。
2、MLE、MAP公式
3、參數(shù)估計(jì)-MLE
4、參數(shù)估計(jì)-MAP
MAP與MLE最大的不同在于p(參數(shù))項(xiàng),MAP將先驗(yàn)知識(shí)加入,優(yōu)化損失函數(shù)。
5、MLE、MAP、Bayesian統(tǒng)一理解
ML(最大似然估計(jì)):給定一個(gè)模型的參數(shù),然后試著最大化p(D|參數(shù))。即給定參數(shù)的情況下,看到樣本集的概率。目標(biāo)是找到使前面概率最大的參數(shù)。邏輯回歸都是基于ML做的。MLE不把先驗(yàn)知識(shí)加入模型中。
MAP(最大后驗(yàn)估計(jì)):最大化p(參數(shù)|D)。
Bayesian:考慮了所有可能的參數(shù),即所有的參數(shù)空間(參數(shù)的分布)。
MLE和MAP的目標(biāo)都是一樣的:找到一個(gè)最優(yōu)解,然后用最優(yōu)解做預(yù)測(cè)。貝葉斯模型會(huì)給出對(duì)參數(shù)的一個(gè)分布,比如對(duì)模型的參數(shù), 假定參數(shù)空間里有參數(shù)1、參數(shù)2、 參數(shù)3、...、參數(shù)N,貝葉斯模型學(xué)出來的就是這些參數(shù)的重要性(也就是分布),然后當(dāng)我們對(duì)新的樣本預(yù)測(cè)的時(shí)候,就會(huì)讓所有的模型一起去預(yù)測(cè),但每個(gè)模型會(huì)有自己的權(quán)重(權(quán)重就是學(xué)出來的分布)。最終的決策由所有的估計(jì)根據(jù)其權(quán)重做出決策。
5、從統(tǒng)計(jì)學(xué)角度理解機(jī)器學(xué)習(xí),不無三要素:特征工程、目標(biāo)函數(shù)、模型學(xué)習(xí),機(jī)器學(xué)習(xí)的本質(zhì)是用計(jì)算機(jī)統(tǒng)計(jì)地估計(jì)復(fù)雜函數(shù)。
定義假設(shè)空間(Model assumption):如線性分類,線性回歸,邏輯回歸,SVM,深度學(xué)習(xí)網(wǎng)絡(luò)等。
定義損失函數(shù)(目標(biāo)函數(shù))并優(yōu)化求解(如:梯度下降,牛頓法等)。
不同的模型使用不同的算法,如邏輯回歸通常用梯度下降法解決,神經(jīng)網(wǎng)絡(luò)用反向推導(dǎo)解決,貝葉斯模型則用MCMC來解決。
機(jī)器學(xué)習(xí) = 模型 + 優(yōu)化(不同算法)
參考:
https://www.cnblogs.com/shixisheng/p/7136890.html
http://www.cnblogs.com/little-YTMM/p/5399532.html
總結(jié)
以上是生活随笔為你收集整理的最大似然估计MLE和最大后验估计MAP理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘笔记十三】数据挖掘的发展趋势和
- 下一篇: 【数据挖掘知识点四】参数估计