當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Denoising Diffusion GAN：Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

發布時間：2023/12/20 编程问答 62 豆豆

生活随笔收集整理的這篇文章主要介紹了 Denoising Diffusion GAN：Tackling the Generative Learning Trilemma with Denoising Diffusion GANs 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
用Diffusion GANs解決生成學習的三難困境
paper：https://arxiv.org/abs/2112.07804
code：https://github.com/NVlabs/denoising-diffusion-gan

Introduction

本文提出了一種結合Diffusion和GAN的生成模型, 在CIFAR-10數據集上能夠比DDPM快2000倍, 同時與傳統的GAN相比, 又可以生成質量相近有具有多樣性的結果. 作者指出DiffusionGAN是第一個可以把Diffusion采樣步驟降低到可以被應用到實際當中的模型.

本文提出了一種比較貼切的說法叫做:生成學習的三元悖論(The Generative Learning Trilemma). 現有的各種各樣的生成模型都需要滿足三個方面的需求:

生成的樣本的質量要高 high-quality sampling;

模態覆蓋率要高/多樣性 mode coverage/diversity;

快速高效的采樣 fast and computational inexpensive
sampling;

如圖所示, 可以直觀的看出, 現有的四大類的生成模型:

GAN可以生成高質量的結果, 同時可以快速采樣, 但是生成結果缺乏多樣性, 而且GAN網絡訓練不穩定和模式坍塌也是臭名昭著.

VAE和Normalizing Flows可以快速采樣, 而且生成的結果也有良好的多樣性, 但是生成的質量卻比較差.

Diffusion生成的結果質量比較高, 甚至可以超過GAN, 而且結果也有良好的多樣性, 但是Diffusion需要幾百甚至幾千步的采樣, 十分緩慢.

Background

Diffusion模型, 包括DDPM模型, 都包含了前向過程和反向過程. 而且前向過程和反向過程中間數據的分布都被建模為了高斯分布.
前向過程:

反向過程:

那么, Diffusion模型優化的目標本質上是將前向的真實的加噪過程的數據分布(true denoising distribution)與反向過程參數化之后去噪過程的數據分布(parameterized denoising distribution)對齊:

注意到這里的形式與之前在介紹DDPM的筆記里邊的兩種形式都不太一樣, 主要區別在于q的分布的表示形式.
由于 $q(xt∣xt?1)=q(xt?1∣xt)q(xt)q(xt?1)\mathrm{q}\left(\mathrm{x}_{\mathrm{t}} \mid \mathrm{x}_{\mathrm{t}-1}\right)=\frac{q\left(x_{t}-1 \mid x_{t}\right) q\left(x_{t}\right)}{q\left(x_{t}-1\right)}$ ) , 這兩種形式是等價的, 而相比之下, 本文這種表示形式更能體現Diffusion模型的本質. 也就是反向的去噪過程是在模擬前向過程所對應的真實的去噪過程.

Diffusion模型基于兩個重要的假設:

去噪過程的分布(denoising distribution)

pθ(xt?1∣xt)\mathrm{p}_{\theta}\left(\mathrm{x}_{\mathrm{t}-1} \mid \mathrm{x}_{\mathrm{t}}\right)

是高斯分布.

去噪過程的步數T是數百或數千這個數量級的. 那么自然有如下兩個問題: 1) 去噪過程的真實分布是高斯分布嗎?或者在什么條件下是高斯分布? 2) 去噪過程步數多是否與這個高斯分布的假設有關?

Denoising Diffusion GANs

3.1 去噪過程的分布

首先來看什么時候真實的去噪過程的分布 $q(xt?1∣xt)\mathrm{q}\left(\mathrm{x}_{\mathrm{t}-1} \mid \mathrm{x}_{\mathrm{t}}\right)$ 是高斯分布. 根據貝葉斯法則, $q(xt?1∣xt)∝q(xt∣xt?1)q(xt?1)q\left(x_{t-1} \mid x_{t}\right) \propto q\left(x_{t} \mid x_{t-1}\right) q\left(x_{t-1}\right)$ 其中前向過程的分布 $q(xt∣xt?1)q\left(x_{t} \mid x_{t-1}\right)$ 服從高斯分布. 那么可以證明在如下兩種情形下, 真實的去噪過程的分布服從高斯分布的形式:

當步長

βt\beta_t

無限小的時候, 這時候貝葉斯法則中前向過程的分布

q(xt∣xt?1)q\left(x_{t} \mid x_{t-1}\right)

占主導地位, 而不論邊緣分布

q(x_t)

是什么形式, 真實的去噪過程的分布與前向過程的形式相同也是高斯分布的形式. 這也就解釋了Diffusion需要大量的采樣步的原因.

當數據的邊緣分布

q(x_t)

是高斯分布時, 那么真實的去噪分布自然也是高斯分布的形式. 于是一種直觀的思路就是先將數據通過VAE編碼到高斯分布, 再來利用Diffusion模型.

但是, 當這兩個條件都不滿足的情況下, 會是什么樣呢? 作者指出當兩個條件都不滿足時, 真實的去噪過程的分布會更加復雜和多模態. 并用一維數據的分布舉了個例子:

3.2 Diffusion GANs

為了能在數據的邊緣分布不是高斯分布的情況下, 也能減少采樣的步數, 這種情況下既然真實的去噪過程的分布 $q(x_{t-1} | x_t)$ 不再服從高斯分布的形式, 那么將反向過程的分布 $pθ(xt?1∣xt)p_{\theta}(x_{t-1} | x_t)$ 也不再建模為高斯分布的形式, 而是通過Conditional GAN來使得兩個分布對齊, 而不是顯式地去學習高斯分布的均值和方差. 這也就是本文的基本思路.
相應的, 優化的目標也就變成了:

那么GAN包括兩個部分, 生成器generator G 和判別器 discriminator D . 那么對于生成器就是 $x_{t-1} = G(x_t, z, t)$ 其中引入的噪聲 z 是為了模型的結果能有良好的多樣性.

相應的, GAN的Discriminator也應該與步驟 t 有關, 其輸入除了數據 $x_t$ 外, 還要包括 t .

但是判別器還需要真實的去噪分布的數據, 這個數據怎么得到? 作者在這里進行了簡單的轉換.

簡單的來表述就是, DDPM為代表的Diffusion模型, 反向過程是在其去噪的分布是高斯分布的前提下,利用 $x_t$ 來得到 t ? 1 的均值和方差, 再來計算得到 $x_{t-1}$ , 而本文的DiffusionGAN則不再有去噪的分布是高斯分布的假設, 利用 $x_t$ 直接通過生成器 $G(x_t, z, t)$ 得到 $x_{t-1}$

3.3 一些討論

一個自然而然的問題就是, 為什么不用一步的GAN而要這樣用多步的GAN呢? 這樣做相比一步直接得到結果的GAN有什么好處呢? 作者給出了如下解釋（歸結起來就是一句話, 多步的GAN比一步的GAN訓練更穩定, 而且模態覆蓋更充分, 結果多樣性更好.）:

傳統的一步到位的GAN, 訓練不穩定而且容易模式坍塌, GAN的判別器也容易過擬合, 而且直接從高斯分布的噪聲一步得到復雜的數據分布本身就是很困難的.

相比之下, 將生成的過程拆分成多步的, 每一步對于模型來說相對簡單, 因為每一步的生成是在上一步結果

x_t

的條件下生成的. 而且diffusion process中, 數據的分布更平滑, 因為其中加入了不同程度的噪聲, 這樣可以讓判別器不容易過擬合. 這樣可以讓模型訓練起來更穩定, 并且可以得到多樣性的結果.

逆過程不是Gaussian

當 $βt\beta_t$ 足夠小的時候，逆過程 $q(xt?1∣xt)q\left(x_{t-1} \mid x_{t}\right)$ 和已知前向過程和函數形式是一樣的，當逆過程表示為貝葉斯規則 $q(xt?1∣xt)=q(xt∣xt?1)q(xt?1)q(xt)q\left(x_{t-1} \mid x_{t}\right)=\frac{q\left(x_{t} \mid x_{t-1}\right) q\left(x_{t-1}\right)}{q\left(x_{t}\right)}$ 時 $q(xt?1)q(xt)≈1\frac{q\left(x_{t-1}\right)}{q\left(x_{t}\right)} \approx 1$ ，因此 $q(xt∣xt?1)q\left(x_{t} \mid x_{t-1}\right)$ 支配了表達，由于 $q(xt∣xt?1)q\left(x_{t} \mid x_{t-1}\right)$ 是高斯過程，反向也可以被認為是高斯過程。

問題是這個假設只有 $βt\beta_t$ 在很小的時候成立，擴散模型的創建過程非常緩慢。因為只在 $βt\beta_t$ 很小的時候才成立，并且必須將T設置得很大才能這樣做。如果我們增加 $βt\beta_t$ 并減少T，則反向不再是高斯的，那么KLD就變得難以計算。

(編者注：這個 $βt\beta_t$ 最小假設在論文https://arxiv.org/abs/2006.11239當中有詳細的討論)

更復雜的逆過程

$Eq[DKL(q(xT∣x0)∥p(xT))?LT+∑t>1DKL(q(xt?1∣xt,x0)∥pθ(xt?1∣xt))?Lt?1?log?pθ(x0∣x1)?L0]\mathbb{E}_{q}[\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{T} \mid \mathbf{x}_{0}\right) \| p\left(\mathbf{x}_{T}\right)\right)}_{L_{T}}+\sum_{t>1} \underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)\right)}_{L_{t-1}} \underbrace{-\log p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}_{L_{0}}]$

現有 DDPM 的目標如上所述。其實單看這個表達式 $q(xt?1∣xt,x0)q\left(x_{t-1} \mid x_{t}, x_{0}\right)$ 無 $βt\beta_t$ ，因此是無條件高斯的。 $pθ(xt?1∣xt)p_{\theta}\left(x_{t-1} \mid x_{t}\right)$ 似乎沒有任何理由使設計更加復雜。上面的表達式也可以寫成形式：

$L=?∑t≥1Eq(xt)[DKL(q(xt?1∣xt)∥pθ(xt?1∣xt))]+C\mathcal{L}=-\sum_{t \geq 1} \mathbb{E}_{q\left(\mathbf{x}_{t}\right)}\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)\right)\right]+C$

這里 $q(xt?1∣xt)q\left(x_{t-1} \mid x_{t}\right)$ 由于難以處理，這種形式并未用于實際學習。看著這個表達式 $pθ(xt?1∣xt)和q(xt?1∣xt)p_{\theta}\left(x_{t-1} \mid x_{t}\right)和q\left(x_{t-1} \mid x_{t}\right)$ 比較復雜，因此使用這種方式表示：

$min?θ∑t≥1Eq(t)[Dadv(q(xt?1∣xt)∥pθ(xt?1∣xt))]\min _{\theta} \sum_{t \geq 1} \mathbb{E}_{q(t)}\left[D_{\mathrm{adv}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)\right)\right]$

方程 $L=?∑t≥1Eq(xt)[DKL(q(xt?1∣xt)∥pθ(xt?1∣xt))]+C\mathcal{L}=-\sum_{t \geq 1} \mathbb{E}_{q\left(\mathbf{x}_{t}\right)}\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)\right)\right]+C$ 當中由于 KLD是比較棘手的，因此必須使用不同的散度。由于GAN可以理解為散度最小化，所以如上用 $D_{adv}$ 代替KLD， $D_{adv}$ 可以是JSD、Wasserstein距離等，具體取決于損失函數。而判別器的損失如下：

$min??∑t≥1Eq(xt)[Eq(xt?1∣xt)[?log?(D?(xt?1,xt,t)]+Epθ(xt?1∣xt)[?log?(1?D?(xt?1,xt,t))]]\min _{\phi} \sum_{t \geq 1} \mathbb{E}_{q\left(\mathbf{x}_{t}\right)}\left[\mathbb{E}_{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}\left[-\log \left(D_{\phi}\left(\mathbf{x}_{t-1}, \mathbf{x}_{t}, t\right)\right]+\mathbb{E}_{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}\left[-\log \left(1-D_{\phi}\left(\mathbf{x}_{t-1}, \mathbf{x}_{t}, t\right)\right)\right]\right]\right.$

然而 $q(xt?1∣xt)q\left(x_{t-1} \mid x_{t}\right)$ 棘手的問題仍然存在，因此無法計算第一個期望，因此解決如下：

$Eq(xt)q(xt?1∣xt)[?log?(D?(xt?1,xt,t))]=Eq(x0)q(xt?1∣x0)q(xt∣xt?1)[?log?(D?(xt?1,xt,t))]\mathbb{E}_{q\left(\mathbf{x}_{t}\right) q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}\left[-\log \left(D_{\phi}\left(\mathbf{x}_{t-1}, \mathbf{x}_{t}, t\right)\right)\right]=\mathbb{E}_{q\left(\mathbf{x}_{0}\right) q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right) q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)}\left[-\log \left(D_{\phi}\left(\mathbf{x}_{t-1}, \mathbf{x}_{t}, t\right)\right)\right]$

$q(x0)q(xt?1∣x0)q(xt∣xt?1)=q(x0,xt?1,xt)q\left(x_{0}\right) q\left(x_{t-1} \mid x_{0}\right) q\left(x_{t} \mid x_{t-1}\right)=q\left(x_{0}, x_{t-1}, x_{t}\right)$ ，和 $Eq(xt?1,xt)[?log(D?(xt?1,xt,t))]=Eq(x0,xt?1,xt)[?log(D?(xt?1,xt,t))]E_{q(x_{t-1},x_t)}[-log(D_\phi(x_{t-1},x_t,t))]=E_{q(x_0,x_{t-1},x_t)}[-log(D_\phi(x_{t-1},x_t,t))]$ 共同和使用。

參數化 $pθp_\theta$

逆過程可以預測的是 $x_0$ 、 $μ~t\tilde\mu_t$ 或者 $?\epsilon$ 。與之前預測 $?\epsilon$ 的模型不同，生成器預測 $x_0$ ，因為

對所有時間步均等地預測 $x_0$ 取決于t，這是因為它比預測 $μ~t\tilde\mu_t$ 直接。
它在實驗上顯示出更好的性能。
$μ~t(xt,x0):=αˉt?1βt1?αˉtx0+αt(1?αˉt?1)1?αˉtxtand?β~t:=1?αˉt?11?αˉtβt\tilde{\boldsymbol{\mu}}_{t}\left(\mathbf{x}_{t}, \mathbf{x}_{0}\right):=\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_{t}}{1-\bar{\alpha}_{t}} \mathbf{x}_{0}+\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}} \mathbf{x}_{t} \quad \text { and } \quad \tilde{\beta}_{t}:=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \beta_{t}$

預測 $x'_0$ 后， $x'_{t-1}$ 是從 $q(x_{t-1}|x_t,x'_0)$ 中采樣得到的，均值和標準與上面相同。用獲得的 $x'_t,x'_{t-1})$ 對構造一個假樣本。真實樣本是 $x_t, x_{t-1})$ ，判別器學會區分兩者。其實這樣看， $q(x_{t-1}|x_t,x'_0)$ 也是高斯的，所以不知道為什么逆過程的分布更復雜，看起來和以前一樣。

在這里通過將潛在變量 z添加到預測 $x'_0$ 的生成器中來與現有的 DDPM 有所不同，例如 $x'_0=G(x_t,t,z)$ 。

$pθ(xt?1∣xt):=∫pθ(x0∣xt)q(xt?1∣xt,x0)dx0=∫p(z)q(xt?1∣xt,x0=Gθ(xt,z,t))dzp_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right):=\int p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{t}\right) q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right) d \mathbf{x}_{0}=\int p(\mathbf{z}) q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}=G_{\theta}\left(\mathbf{x}_{t}, \mathbf{z}, t\right)\right) d \mathbf{z}$

以前，由于 $pθ(x0∣xtp_\theta(x_0|x_t$ )是一個 $δ\delta$ 函數，所以逆過程 $pθ(xt?1∣xt)p_\theta(x_{t-1}|x_t)$ 是高斯函數，而在本工作中， $pθ(x0∣xt)=∫G(xt,t,z)p(z)dzp_{\theta}\left(x_{0} \mid x_{t}\right)=\int G\left(x_{t}, t, z\right) p(z) d z$ 變成了連續高斯混合。

結論

起初，我認為 FID 比擴散模型差，它是一個比 GAN 慢的模棱兩可的模型，但這似乎是提高擴散模型的采樣速度和我認為還有很大的發展空間。在這些研究中，這篇論文似乎是最杰出的。然而，有點奇怪的是，該實驗僅在 cifar-10 和 LSUN 上進行，而不是在 imageNet 上進行，聲稱比 GAN 具有更好的模式覆蓋率作為優勢。

知乎：https://blog.csdn.net/D_Trump/article/details/125533291

總結

以上是生活随笔為你收集整理的Denoising Diffusion GAN：Tackling the Generative Learning Trilemma with Denoising Diffusion GANs的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java输出矩形、三角形、圆形面积和周长
下一篇： Eureka自我保护机制原理及作用ena