當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

發布時間：2023/12/3 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇文章中提到了一個有趣的實驗，簡單來說就是1-100中有若干個數字是“正確的”，只告訴其中一部分“正確的”數字，去猜全部“正確的”數字。

為了嚴謹的去研究這個問題，我們需要將一些概念進行抽象。首先，把提前告知的其中一部分“正確的”數字定義為樣本

，全部“正確的”數字定義為假設，我們想要做的就是在給定樣本下找到最適合的假設。

這里需要說明一點，由以上定義容易發現

，但是為了一般性，暫時不做的假設。

有了前面這些準備，我們就可以給出likelihood的定義：

，即給定假設下樣本發生的概率。對于離散化的問題，如前面提到的那個實驗，公式還可進一步寫成：，為樣本數。為了引入極大似然估計這個概念，我們需要提前約定包含所有假設的假設空間為。

所以，極大似然估計（MLE）就是在

中找到一個使得likelihood達到最大，公式寫成。MIT教授Joshua Brett Tenenbaum稱之為size principle，它意味著模型會傾向于更簡單（在這里就是所含元素更少）的假設。

但是，這種結果在機器學習中卻不是令人滿意的。譬如說如果

，很明顯，是的MLE，但是實際上他是沒有意義的，因為它不具有泛化性，即無法預測未知的數據。換句話說，它其實根本沒有進行訓練。

因此，我們需要定義prior。仍然令

，我們可以做出很多假設，譬如，或者。可以發現，比有更高的likelihood，但是我們不愿意接受，這是因為在我們心中的假設空間中，比的可能性低的多。

所以，prior的定義就是假設在假設空間的概率

。不過，這種定義實際上是很主觀的，譬如一個小孩和一個數學教授不僅假設空間不同，他們的prior也會不同。但是為了方便處理，我們一般令他們的假設空間相同，但是改變其中的prior。譬如說對于advance的假設，小孩的prior就是0，數學教授的prior可能就會稍微高一些。

有了likelihood和prior，我們可以去定義后驗概率（posteriori probability）

。先給出公式：，有些朋友會發現這其實就是貝葉斯公式。顧名思義，最大后驗概率估計（MAP estimate）就是找到一個假設，使得后驗概率取到最大值。

我們可以發現，如果

是均勻分布，那么后驗概率和likelihood是成正比的，這時的MLE就等價于MAP estimate。

但是真實情況往往不是這樣，

的分布是多種多樣的，不過如果我們的樣本量N趨于無窮，我們仍然可以得到很好的結論，下面來證明這一點。

由于

的分母是常數，所以MAP estimate也可寫成如下公式：，而，所以是關于N線性上升的，而是常數，若同除以，因為與無關，所以不會影響，但是會趨于0當趨于無窮。而，所以也就是說，當我們有足夠多的樣本，prior的作用就可以忽略不計。在這種情況下，MAP estimate會收斂于MLE。

最后想談一談誤差分類

我們不可能會產生一個精確的模型，我們產生的模型往往是含有噪音的，這些噪音可能來自：

模型并不是真實數據產生的模型
采樣本身也是有噪音的
等等

我們也會非常關心：

這些噪音隨著采樣是以什么尺度下降的
隨著神經元數目增加，我的模型可以把誤差下降到多小
訓練誤差和測試誤差
應該選擇什么優化方式
等等

有很多很多的誤差，我們需要對誤差分類（error decomposition）

逼近誤差（Approximation error）

它衡量了我的模型能最好逼近真實模型到什么程度（譬如說用分片線性函數去擬合非線性函數）。但是要注意，這種逼近是不計成本的，也就是說，在不計一切代價的情況下，如果目標是

，我們可以最佳逼近到。但實際上不計一切成本是不可能的。

在八十年代末九十年代初，最杰出的結論就是universal approximation theorem（萬有逼近原理）。這個結論是說，即使只有一個隱藏層(只要夠寬)，都可以把神經網絡擬合的很好。當然，激活函數不可以是仿射函數，要不然連最普通的XOR問題都解決不了。

2. 泛化誤差（Generalization error)

它衡量了我可以通過數據集得到的最好的模型

和的距離。

泛化即推廣能力。舉個例子，給出一系列數據點，我們可以找到一條函數將數據點擬合。那么這條函數在我沒有見過的數據點的預測能力和表現性能就叫做泛化能力。

泛化誤差是我們很關心的誤差，因為理論上已經證明了，

可以幾乎等于我們的目標函數，所以我們泛化誤差可以就認為是與的誤差

3. 優化誤差（Optimization error）

它衡量了我可以通過數據集和某一種優化算法得到的最好的模型

和的舉例距離。

所以最終我們可以得到一個等式

，直觀圖如下：

參考：

Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]

bilibili：數學學院本科課程：統計計算與機器學習1

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：金钱是什么金钱是货币吗
下一篇： ios点击大头针气泡不弹出_iOS高德地

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

總結