當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Noise-contrastive estimation简介

發(fā)布時(shí)間：2024/1/1 编程问答 85 豆豆

生活随笔收集整理的這篇文章主要介紹了 Noise-contrastive estimation简介小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Noise-contrastive estimation（NCE）是一種估計(jì)統(tǒng)計(jì)模型參數(shù)的方法。
基本思想是用非線性邏輯回歸（nonlinear logistic regression）區(qū)分觀測數(shù)據(jù)和一些人為產(chǎn)生的噪聲數(shù)據(jù)，在區(qū)分的時(shí)候?qū)W習(xí)統(tǒng)計(jì)模型的參數(shù)。
作者證明該方法的估計(jì)量是一個一致（收斂）估計(jì)量，并分析了漸近方差。
特別地，該方法可以直接用于非歸一化模型的參數(shù)估計(jì)，即概率密度函數(shù)積分不為1的模型。歸一化常數(shù)可以像任何其他參數(shù)一樣進(jìn)行估計(jì)。

NCE的估計(jì)量

用 $X=(x1,…,xT)X=(\mathbf{x}_1, \ldots, \mathbf{x}_T)$ 表示觀測數(shù)據(jù)，我們用分布 $pm(?;θ)p_m(\cdot; \theta)$ 去擬合。 $Y=(y1,…,yT)Y=(\mathbf{y}_1, \ldots, \mathbf{y}_T)$ 表示任意的噪聲數(shù)據(jù)，其符合分布 $pn(?)p_n(\cdot)$ 。估計(jì)量 $θ^T\hat{\theta}_T$ 被定義為最大化下面目標(biāo)函數(shù)的 $θ\theta$ ：
$JT(θ)=12T∑tln?[h(xt;θ)]+ln?[1?h(yt;θ)](1)J_T(\theta) = \frac{1}{2T} \sum_t \ln[h(\mathbf x_t;\theta)] + \ln[1-h(\mathbf y_t;\theta)] \tag{1}$ 其中
$h(u;θ)=11+exp?[?G(u;θ)]G(u;θ)=ln?pm(u;θ)?ln?pn(u)h(\mathbf u;\theta) = \frac{1}{1+\exp[-G(\mathbf u; \theta)]}\\ G(\mathbf u; \theta) = \ln p_m(\mathbf u; \theta) - \ln p_n(\mathbf u)$
logistic regression的函數(shù)是 $\frac{1}{1+\exp(-x)}$ ，那么 $h(u;θ)=r(G(u;θ))h(\mathbf u;\theta) = r(G(\mathbf u; \theta))$ 。
公式(1)是區(qū)分?jǐn)?shù)據(jù)來自X或者噪聲Y的logistic regression的log-likelihood。
NCE的思想就是，通過區(qū)分?jǐn)?shù)據(jù)和噪聲，可以學(xué)習(xí)到數(shù)據(jù)的分布。

作者證明了估計(jì)量 $θ^T\hat{\theta}_T$ 的一致性：

噪聲分布的選擇

噪聲分布應(yīng)該盡可能的和數(shù)據(jù)分布相似，否則的話分類問題太過于簡單，算法學(xué)習(xí)不到符合真實(shí)數(shù)據(jù)分布的參數(shù)。
可以先學(xué)習(xí)一個基礎(chǔ)的模型去擬合數(shù)據(jù)分布，再將這個基礎(chǔ)模型作為噪聲分布。

參考

AISTATS 2010《Noise-contrastive estimation: A new estimation principle for unnormalized statistical models》

總結(jié)

以上是生活随笔為你收集整理的Noise-contrastive estimation简介的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： input type=number ma
下一篇：使用requests登陆古诗词网