Noise-contrastive estimation简介
Noise-contrastive estimation(NCE)是一種估計(jì)統(tǒng)計(jì)模型參數(shù)的方法。
基本思想是用非線性邏輯回歸(nonlinear logistic regression)區(qū)分觀測(cè)數(shù)據(jù)和一些人為產(chǎn)生的噪聲數(shù)據(jù),在區(qū)分的時(shí)候?qū)W習(xí)統(tǒng)計(jì)模型的參數(shù)。
作者證明該方法的估計(jì)量是一個(gè)一致(收斂)估計(jì)量,并分析了漸近方差。
特別地,該方法可以直接用于非歸一化模型的參數(shù)估計(jì),即概率密度函數(shù)積分不為1的模型。歸一化常數(shù)可以像任何其他參數(shù)一樣進(jìn)行估計(jì)。
NCE的估計(jì)量
用X=(x1,…,xT)X=(\mathbf{x}_1, \ldots, \mathbf{x}_T)X=(x1?,…,xT?)表示觀測(cè)數(shù)據(jù),我們用分布pm(?;θ)p_m(\cdot; \theta)pm?(?;θ)去擬合。Y=(y1,…,yT)Y=(\mathbf{y}_1, \ldots, \mathbf{y}_T)Y=(y1?,…,yT?)表示任意的噪聲數(shù)據(jù),其符合分布pn(?)p_n(\cdot)pn?(?)。估計(jì)量θ^T\hat{\theta}_Tθ^T?被定義為最大化下面目標(biāo)函數(shù)的θ\thetaθ:
JT(θ)=12T∑tln?[h(xt;θ)]+ln?[1?h(yt;θ)](1)J_T(\theta) = \frac{1}{2T} \sum_t \ln[h(\mathbf x_t;\theta)] + \ln[1-h(\mathbf y_t;\theta)] \tag{1} JT?(θ)=2T1?t∑?ln[h(xt?;θ)]+ln[1?h(yt?;θ)](1)其中
h(u;θ)=11+exp?[?G(u;θ)]G(u;θ)=ln?pm(u;θ)?ln?pn(u)h(\mathbf u;\theta) = \frac{1}{1+\exp[-G(\mathbf u; \theta)]}\\ G(\mathbf u; \theta) = \ln p_m(\mathbf u; \theta) - \ln p_n(\mathbf u) h(u;θ)=1+exp[?G(u;θ)]1?G(u;θ)=lnpm?(u;θ)?lnpn?(u)
logistic regression的函數(shù)是r(x)=11+exp?(?x)r(x) = \frac{1}{1+\exp(-x)}r(x)=1+exp(?x)1?,那么h(u;θ)=r(G(u;θ))h(\mathbf u;\theta) = r(G(\mathbf u; \theta))h(u;θ)=r(G(u;θ))。
公式(1)是區(qū)分?jǐn)?shù)據(jù)來(lái)自X或者噪聲Y的logistic regression的log-likelihood。
NCE的思想就是,通過(guò)區(qū)分?jǐn)?shù)據(jù)和噪聲,可以學(xué)習(xí)到數(shù)據(jù)的分布。
作者證明了估計(jì)量θ^T\hat{\theta}_Tθ^T?的一致性:
噪聲分布的選擇
噪聲分布應(yīng)該盡可能的和數(shù)據(jù)分布相似,否則的話分類問(wèn)題太過(guò)于簡(jiǎn)單,算法學(xué)習(xí)不到符合真實(shí)數(shù)據(jù)分布的參數(shù)。
可以先學(xué)習(xí)一個(gè)基礎(chǔ)的模型去擬合數(shù)據(jù)分布,再將這個(gè)基礎(chǔ)模型作為噪聲分布。
參考
AISTATS 2010《Noise-contrastive estimation: A new estimation principle for unnormalized statistical models》
總結(jié)
以上是生活随笔為你收集整理的Noise-contrastive estimation简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: input type=number ma
- 下一篇: 使用requests登陆古诗词网