當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【bayes】贝叶斯likelihood和model

發(fā)布時(shí)間：2023/12/4 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了【bayes】贝叶斯likelihood和model 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1）Likelihood

最大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法，即：“模型已定，參數(shù)未知”。

簡(jiǎn)單而言，假設(shè)我們要統(tǒng)計(jì)全國(guó)人口的身高，首先假設(shè)這個(gè)身高服從
服從正態(tài)分布，但是該分布的均值與方差未知。我們沒(méi)有人力與物力去統(tǒng)計(jì)全國(guó)每個(gè)人的身高，但是可以通過(guò)采樣，獲取部分人的身高，然后通過(guò)最大似然估計(jì)來(lái)獲
取上述假設(shè)中的正態(tài)分布的均值與方差。

??? 最大似然估計(jì)中采樣需滿足一個(gè)很重要的假設(shè)，就是所有的采樣都是獨(dú)立同分布的。

下面我們具體描述一下最大似然估計(jì)：

??? 首先，假設(shè)為獨(dú)立同分布的采樣，θ為模型參數(shù),f為我們所使用的模型，遵循我們上述的獨(dú)立同分布假設(shè)。參數(shù)為θ的模型f產(chǎn)生上述采樣可表示為

???????

回到上面的“模型已定，參數(shù)未知”的說(shuō)法，此時(shí)，我們已知的為，未知為θ，故似然定義為:

　　在實(shí)際應(yīng)用中常用的是兩邊取對(duì)數(shù)，得到公式如下：

????

　　其中稱為對(duì)數(shù)似然，而稱為平均對(duì)數(shù)似然。而我們平時(shí)所稱的最大似然為最大的對(duì)數(shù)平均似然，即：

由上可知最大似然估計(jì)的一般求解過(guò)程：

　　（1）寫出似然函數(shù)；

　　（2）對(duì)似然函數(shù)取對(duì)數(shù)，并整理；

　　（3）求導(dǎo)數(shù) ；

　　（4）解似然方程

Likelihood函數(shù)選擇

對(duì)于同一個(gè)模型，likelihood函數(shù)可能有不同的選擇，對(duì)于這些選擇，可能有些比較精確、但是會(huì)搜索非常大的空間，可能有些比較粗糙，但是速度會(huì)比較快，我們需要選擇不同的likelihood函數(shù)來(lái)計(jì)算后驗(yàn)概率。對(duì)于這些Likelihood函數(shù)，可能還需要加上一些平滑等技巧來(lái)使得最大的降低數(shù)據(jù) 中噪聲、或者假設(shè)的缺陷對(duì)結(jié)果的影響。

我所理解的用貝葉斯的方法來(lái)估計(jì)給定數(shù)據(jù)的假設(shè)的后驗(yàn)概率，就是通過(guò)prior * likelihood，變換到后驗(yàn)分布。是一個(gè)分布變換的過(guò)程。

3) loss function(損失函數(shù))

?

?? x是輸入的數(shù)據(jù)，y(x)是推測(cè)出的結(jié)果的模型，t是x對(duì)應(yīng)的真實(shí)結(jié)果，L(t,y(x))就是loss function，E[L]表示使用模型y進(jìn)行預(yù)測(cè)，使用L作為損失函數(shù)的情況下，模型的損失時(shí)多少。通常來(lái)說(shuō)，衡量一個(gè)模型是否能夠準(zhǔn)確的得到結(jié)果，損失函數(shù)是最有效的一個(gè)辦法，最常用、最簡(jiǎn)單的一種損失函數(shù)是：

不過(guò)我一直不知道為什么這里用的平方，而不是直接用絕對(duì)值，有詳細(xì)一點(diǎn)的解釋嗎？:-p

4) Model Selection(模型選擇)

前文說(shuō)到了對(duì)于likelihood函數(shù)可以有不同的選擇，對(duì)于先驗(yàn)的概率也可以有不同的選擇，不過(guò)假設(shè)我們一個(gè)構(gòu)造完整的測(cè)試集和一個(gè)恰當(dāng)?shù)膿p失函數(shù)，最終的結(jié)果將會(huì)是確定的，量化的，我們很容易得到兩個(gè)不同參數(shù)、方法的模型的優(yōu)劣性。不過(guò)通常情況下，我們的測(cè)試集是不夠完整，我們的損失函數(shù)也是不那么的精確，所以對(duì)于在這個(gè)測(cè)試集上表現(xiàn)得非常完美的模型，我們常?？赡苓€需要打一個(gè)問(wèn)號(hào)，是否是訓(xùn)練集和測(cè)試集過(guò)于相像，模型又過(guò)于復(fù)雜。導(dǎo)致了over- fitting（后文將會(huì)詳細(xì)介紹over-fitting的產(chǎn)生）？

?? Model Selection本質(zhì)上來(lái)說(shuō)是對(duì)模型的復(fù)雜度與模型的準(zhǔn)確性做一個(gè)平衡，本文后面將有一些類似的例子。

Example 1：Sequential 概率估計(jì)

注：此例子來(lái)自PRML chapter 2.1.1

對(duì)于概率密度的估計(jì)，有很多的方法，其中一種方法叫做Sequential 概率估計(jì)。

這種方法是一個(gè)增量的學(xué)習(xí)過(guò)程，在每看到一個(gè)樣本的時(shí)候都是把之前觀測(cè)的數(shù)據(jù)作為先驗(yàn)概率，然后在得到新數(shù)據(jù)的后驗(yàn)概率后，再把當(dāng)前的后驗(yàn)概率作為下一次預(yù)測(cè)時(shí)候的先驗(yàn)概率。

傳統(tǒng)的二項(xiàng)式分布是：

由于傳統(tǒng)的二項(xiàng)式分布的概率μ是完全根據(jù)先驗(yàn)概率而得到的，而這個(gè)先驗(yàn)分布之前也提到過(guò)，可能會(huì)由于實(shí)驗(yàn)次數(shù)不夠而有很大的偏差，而且，我們無(wú)法得知μ的分布，只知道一個(gè)μ的期望，這樣對(duì)于某些機(jī)器學(xué)習(xí)的方法是不利的。為了減少先驗(yàn)分布對(duì)μ的影響，獲取μ的分布，我們加入了兩個(gè)參數(shù)，a，b，表示X=0與X=1的出現(xiàn)的次數(shù)，這個(gè)取值將會(huì)改變?chǔ)痰姆植?#xff0c;beta分布的公式如下：

對(duì)于不同a，b的取值，將會(huì)對(duì)μ的概率密度函數(shù)產(chǎn)生下面的影響：（圖片來(lái)自PRML）

在觀測(cè)數(shù)據(jù)的過(guò)程中，我們可以隨時(shí)的利用觀測(cè)數(shù)據(jù)的結(jié)果，改變當(dāng)前μ的先驗(yàn)分布。我們可以將Beta分布加入兩個(gè)參數(shù)，m，l，表示觀測(cè)到的X=0，X=1的次數(shù)。（之前的a，b是一個(gè)先驗(yàn)的次數(shù)，不是當(dāng)前觀測(cè)到的）

我們令：

a’，b’表示加入了觀測(cè)結(jié)果的新的a，b 。帶入原式，可以得到

我們可以利用觀測(cè)后的μ后驗(yàn)概率更新μ的先驗(yàn)概率，以進(jìn)行下一次的觀測(cè)，這樣對(duì)不時(shí)能夠得到新的數(shù)據(jù)，并且需要real-time給出結(jié)果的情況下很有用。不過(guò)Sequential方法有對(duì)數(shù)據(jù)一個(gè)i.i.d（獨(dú)立同分布）的假設(shè)。要求每次處理的數(shù)據(jù)都是獨(dú)立同分布的。

原文 http://www.cnblogs.com/LeftNotEasy/archive/2010/09/27/1837163.html

總結(jié)

以上是生活随笔為你收集整理的【bayes】贝叶斯likelihood和model的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：测试Live Writer 发表博客
下一篇：双缓冲技术