當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

PaperNotes(9)-Learning deep energy model: contrastive divergence vs. Amortized MLE

發(fā)布時(shí)間：2023/12/13 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 PaperNotes(9)-Learning deep energy model: contrastive divergence vs. Amortized MLE 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Learning deep energy model: contrastive divergence vs. Amortized MLE

abstract
1 Introduction
2 Background
- 2.1 stein variational gradient descent
- 2.2 learning energy model
**contrastive Divergence**

abstract

受SVGD算法的啟發(fā),本文提出兩個(gè)算法用于從數(shù)據(jù)中學(xué)習(xí)深度能量模型.兩個(gè)算法分別為:SteinCD算法和SteinGAN 算法,SteinCD 算法將 CD算法和SVGD算法結(jié)合(基于兩者理論上的聯(lián)系), SteinGAN 算法通過(guò)最大似然訓(xùn)練一個(gè)附加的網(wǎng)絡(luò)訓(xùn)練負(fù)樣本. SteinCD有高似然,SteinGAN有高可視化質(zhì)量.兩者結(jié)合可以繼承兩者的優(yōu)點(diǎn).

1 Introduction

EBM(energy -based models)能夠捕獲依據(jù)能量函數(shù)捕獲變量之間的依賴性,為無(wú)向圖模型,深度生成模型等提供了一個(gè)統(tǒng)一的建模框架.

MLE(maximum likelihood estimator)用于學(xué)習(xí)EBM中的參數(shù),但是準(zhǔn)確MLE由于難以計(jì)算的歸一化常數(shù)往往無(wú)法求解.為了解決這個(gè)困境,近年提出了很多方法,例如近似的Likelihood 目標(biāo)函數(shù),或者可替代的目標(biāo)函數(shù). Contrastive divergence 是其中一種改進(jìn)方案,優(yōu)化的是一個(gè)對(duì)比目標(biāo),該對(duì)比目標(biāo)用以衡量朝著目標(biāo)走一定步子的能夠改進(jìn)的ＫL散度(兩個(gè)分布沒(méi)有搞清楚呦).

CD類的方法能夠獲得很高的測(cè)試似然,但是產(chǎn)生不了真實(shí)的數(shù)據(jù)(real-world instance圖像). 能量模型無(wú)法捕獲real-world instance 基于的相對(duì)第的流形.GAN模型能夠生成高視覺(jué)質(zhì)的樣本但沒(méi)有明確的能量目標(biāo)（使得泛化性能一般）. 將ＧＡＮ模型和ＥＢＭ模型結(jié)合能夠融合兩種方法的優(yōu)點(diǎn)．

2 Background

2.1 stein variational gradient descent

SVGD 可以是一個(gè)近似采樣策略，用于近似從目標(biāo)分布 $p (x)$ 中采樣（x是d 維度的一個(gè)隨機(jī)變量）．初始化一些列例子 ${x_i\}_{i=1}^n$ (這些例子的經(jīng)驗(yàn)分布是 $q0(x)=∑iδ(x?xi)/nq_0(x)=\sum_{i}\delta(x-x_i)/n$ ),通過(guò)下面的變換操作，使得例子朝著p(x)分布的規(guī)律靠近．
$xi′←xi+??(xi),?i=1,...,nx_i'\leftarrow x_i + \epsilon \phi(x_i), \forall i=1,...,n$

其中 $?\epsilon$ 為步長(zhǎng)， $?(xi)\phi(x_i)$ 為 $x_i$ 決定的改進(jìn)方向，這個(gè)改進(jìn)方向應(yīng)該朝向KL散度下降最快的方向前進(jìn)(可以直接對(duì)W距離優(yōu)化么)
$??=arg?max??∈F{KL(q0∣∣p)?KL(q[??]∣∣p)}(6.1)\phi^*=\arg \max_{\phi \in \mathcal{F}}\{KL(q_0||p) - KL(q_{[\epsilon\phi]}||p)\}\tag{6.1}$

$KL(q0∣∣p)?KL(qx′∣∣p)=∫[q0log?q0p?qx′log?qx′p]dxKL(q_0||p)-KL(q_{x'}||p)=\int [q_0\log\frac{q_0}{p} -q_{x'}\log\frac{q_{x'}}{p} ]dx$

原來(lái)SVGD目標(biāo)函數(shù)只有后半部分

無(wú)窮的部分會(huì)被減掉,上式子定義了一個(gè)非線性方程優(yōu)化問(wèn)題.當(dāng)步長(zhǎng) $?→0\epsilon \rightarrow 0$ 時(shí), ＫＬ散度的下降率（就用這個(gè)式子可以計(jì)算出來(lái)）　可以近似為　KL 散度的梯度（說(shuō)的是哪兩個(gè)分布的KL散度?），寫作:
$??=arg?max??∈F{?dd?KL(q[??]∣∣p)∣?=0}(6.2)\phi^* = \arg \max_{\phi \in \mathcal{F}}\{-\fracozvdkddzhkzd{d\epsilon} KL(q_{[\epsilon\phi]}||p)|_{\epsilon=0}\}\tag{6.2}$

最優(yōu)的 $?\phi$ 記為 $??\phi^*$ ,是通過(guò)使6.1式最大化得到的最優(yōu)擾動(dòng)方向.當(dāng) $q_0$ 與 $p$ 給定,6.1式子中的 $KL(q_0||p)$ 為一個(gè)與優(yōu)化無(wú)關(guān)的固定值,則需要最小化 $KL(q[??]∣∣p)KL(q_{[\epsilon\phi]}||p)$ ,則需要找到下降(負(fù)梯度)最快(max)的方向(即6.2式子所示),在 SVGD 中顯示6.2式可以表示為:
$?dd?KL(q[??]∣∣p)∣?=0=Ex～q0[Tp?(x)]-\fracozvdkddzhkzd{d\epsilon} KL(q_{[\epsilon\phi]}||p)|_{\epsilon=0}=\mathbb{E}_{x\sim q_0}[\mathcal{T_p\phi(x)}]$

$Tp\mathcal{T}_p$ 為stein算子,具體作用形式為(返回標(biāo)量值函數(shù)不懂),6.2 式定義了一個(gè)discrepency: $D(q0∣∣p)\mathbb{D}(q_0||p)$ (距離的定義本身就是一個(gè)糟糕的一種情況)

SVGD探索了 $F\mathcal{F}$ 需要具備的特性:具有簡(jiǎn)單的結(jié)構(gòu),但是依舊能保持著無(wú)限維度以包含所有有用的速度場(chǎng)方向.一個(gè)自然的選擇是再生核希爾伯特空間中函數(shù).在這種情況下,最優(yōu)的 $??\phi^*$ 為:
$??=Ex～q0[?xlog?p(x)k(x,x′)+?xk(x,x′)]\phi^*=\mathbb{E}_{x \sim q_0}[\nabla_x\log p(x)k(x,x')+ \nabla_xk(x,x')]$

2.2 learning energy model

SVGD 是一個(gè)推斷過(guò)程,本文研究的是一個(gè)學(xué)習(xí)過(guò)程.給定一批樣本 ${x_i\}_{i=1}^n$ ,找到一個(gè)分布 $p$ ,最好的近似這批樣本.

可以將p分布建模為:
$p(x∣θ)=1Z(θ)exp?(f(x;θ))Z(θ)=∫xexp?(f(x;θ))dxp(x|\theta)=\frac{1}{Z(\theta)}\exp(f(x;\theta))\\ Z(\theta)=\int_x \exp (f(x;\theta))dx$

$f(x,θ)f(x,\theta)$ 為負(fù)代表能量的標(biāo)量值函數(shù), 使用MLE來(lái)估計(jì)(更新) $θ\theta$ ,對(duì)最大化對(duì)數(shù)似然求導(dǎo)數(shù),可以得到參數(shù) $θ\theta$ 更新的方式,但是有一個(gè)致命的缺點(diǎn)是該導(dǎo)數(shù)中存在歸一化常數(shù)的導(dǎo)數(shù)無(wú)法直接計(jì)算(到現(xiàn)在也沒(méi)有明白為啥這個(gè)導(dǎo)數(shù)難以計(jì)算?對(duì)參數(shù)的導(dǎo)數(shù)乘上所有樣本的和?),所以需要對(duì)涉及到的這個(gè)歸一化參數(shù)求導(dǎo)的部分進(jìn)行近似處理 .

contrastive Divergence

https://blog.csdn.net/bbbeoy/article/details/79246340 cd 方法的原始論文的翻譯
深度學(xué)習(xí)方法：受限玻爾茲曼機(jī)RBM（四）對(duì)比散度contrastive divergence，CD：https://blog.csdn.net/xbinworld/article/details/45274289?utm_source=blogxgwz0

現(xiàn)在的主要問(wèn)題是如何從KL過(guò)度到CD不是很明白,大概是說(shuō)原來(lái)的吉布斯分布采樣是從隨機(jī)狀態(tài)開(kāi)始的,現(xiàn)在從采樣樣本開(kāi)始,CD算法的前身應(yīng)該是吉布斯采樣訓(xùn)練RBM
stein max-min 目標(biāo)函數(shù)還是可以理解,max 是為了越接近與原始ＫＬ散度，　外層的Min就是最小化這個(gè)KL散度

看完也是一知半解,初步想法框圖,就看多變量的直接請(qǐng)求離差算不算是QR回歸.

總結(jié)

以上是生活随笔為你收集整理的PaperNotes(9)-Learning deep energy model: contrastive divergence vs. Amortized MLE的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：数据结构和算法（05）---链表（c++
下一篇：随机过程1