當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(八) 生成对抗网络(GAN)

發(fā)布時間：2024/3/26 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习(八) 生成对抗网络(GAN) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

前言
1 GAN
- 1.1 相關(guān)介紹
- 1.2 原理
- - 1.2.1 網(wǎng)絡(luò)架構(gòu)
  - 1.2.2 網(wǎng)絡(luò)訓(xùn)練
- 1.3 用GAN生成圖像
- - 1.3.1 判別器
  - 1.3.2 生成器
  - 1.3.3 訓(xùn)練模型
2 GAN變種
- 2.1 CGAN
- - 2.1.1 原理
  - 2.1.2 PyTorch實現(xiàn)
- 2.2 DCGAN
- 2.3 CycleGAN
- 2.4 WGAN
3 訓(xùn)練GAN的技巧

前言

??在生成對抗網(wǎng)絡(luò)(Generative Adversarial Network，簡稱 GAN)發(fā)明之前，變分自編碼器(VAE)被認(rèn)為是理論完備，實現(xiàn)簡單，使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練起來很穩(wěn)定，生成的圖片逼近度也較高，但是人眼還是可以很輕易地分辨出真實圖片與機器生成的圖片。但在2014年GAN被提出之后，在之后的幾年里面里迅速發(fā)展，生成的圖片越來越逼真。

1 GAN

1.1 相關(guān)介紹

??GAN模型的核心思想就是博弈思想，是生成器(造假者)和判別器(鑒別者)之間的博弈，在提出GAN的原始論文中，作者舉了貨幣制造的例子。即像一臺驗鈔機和一臺制造假幣的機器之間的博弈，兩者不斷博弈，博弈的結(jié)果假幣越來越像真幣，直到驗鈔機無法識別一張貨幣是假幣還是真幣為止。

1.2 原理

1.2.1 網(wǎng)絡(luò)架構(gòu)

??生成對抗網(wǎng)絡(luò)包含了兩個子網(wǎng)絡(luò)：生成網(wǎng)絡(luò)(Generator，簡稱 G)和判別網(wǎng)絡(luò)(Discriminator，簡稱 D)，其中生成網(wǎng)絡(luò) G 負(fù)責(zé)學(xué)習(xí)樣本的真實分布，判別網(wǎng)絡(luò) D 負(fù)責(zé)將生成網(wǎng)絡(luò)采樣的樣本與真實樣本區(qū)分開來。
??生成網(wǎng)絡(luò)G(𝒛) ：生成網(wǎng)絡(luò) G 和自編碼器的 Decoder 功能類似，從先驗分布 $p_z$ (?)采樣獲得潛在空間點向量，經(jīng)過網(wǎng)絡(luò)生成圖片樣本 $xˉ\bar{x}$ ~ $𝑝_𝑔(x|z)$ 。
??生成器的網(wǎng)絡(luò)( $𝑝_𝑔(x|z)$ )可以由深度神經(jīng)網(wǎng)絡(luò)來參數(shù)化，如：卷積網(wǎng)絡(luò)和轉(zhuǎn)置卷積網(wǎng)絡(luò)。下圖中從均勻分布 $p z$ (?)中采樣出隱藏變量 $z$ ，經(jīng)過多層轉(zhuǎn)置卷積層網(wǎng)絡(luò)參數(shù)化的 $𝑝_𝑔(x|z)$ 分布中采樣出樣本 $x_f$ ，從輸入輸出層面來看，生成器 G 的功能是將隱向量𝒛通過神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為樣本向量 $x_f$ ，下標(biāo)𝑓代表假樣本(Fake samples)。
??判別網(wǎng)絡(luò)D(𝒙)：判別網(wǎng)絡(luò)和普通的二分類網(wǎng)絡(luò)功能類似，網(wǎng)絡(luò)的輸入數(shù)據(jù)集由采樣自真實數(shù)據(jù)分布 $p_𝑟$ (?)的樣本 $x_𝑟$ ~ $𝑝_𝑟$ (?)和采樣自生成網(wǎng)絡(luò)的假樣本 $x_𝑓$ ~ $𝑝_𝑔(x|z)$ 組成。判別網(wǎng)絡(luò)輸出為 $x$ 屬于真實樣本的概率𝑃( $x$ 為真| $x$ )，我們把所有真實樣本 $x_r$ 的標(biāo)簽標(biāo)注為真(1)，所有生成網(wǎng)絡(luò)產(chǎn)生的樣本，所有生成網(wǎng)絡(luò)產(chǎn)生的樣本 $x_f$ 標(biāo)注為假(0)，通過最小化判別網(wǎng)絡(luò) D 的預(yù)測值與標(biāo)簽之間的誤差來優(yōu)化判別網(wǎng)絡(luò)參數(shù)。

1.2.2 網(wǎng)絡(luò)訓(xùn)練

??GAN 博弈學(xué)習(xí)的思想體現(xiàn)在在它的訓(xùn)練方式上，由于生成器 G 和判別器 D 的優(yōu)化目標(biāo)不一樣，不能和之前的網(wǎng)絡(luò)模型的訓(xùn)練一樣，只采用一個損失函數(shù)。所以我們要分別對生成器和判別器進(jìn)行訓(xùn)練。
??判別網(wǎng)絡(luò)D(𝒙)：它的目標(biāo)是能夠很好地分辨出真樣本 $x_r$ 與假樣本 $x_f$ 。則其損失函數(shù)既要考慮識別真圖像能力，又要考慮識別假圖像能力，而不能只考慮一方面，故判別器的損失函數(shù)為兩者的和。因此 D 的分類問題是二分類問題，以圖片生成來說，交叉熵?fù)p失函數(shù)定義為：
因此判別網(wǎng)絡(luò) D 的優(yōu)化目標(biāo)是：

將最小化轉(zhuǎn)成最大化的問題并寫成期望的形式：

??具體代碼如下：D表示判別器、G為生成器、real_labels、fake_labels分別表示真圖像標(biāo)簽、假圖像標(biāo)簽。images是真圖像，z是從潛在空間隨機采樣的向量，通過生成器得到假圖像。

# 定義判斷器對真圖像的損失函數(shù) outputs = D(images) d_loss_real = criterion(outputs, real_labels) real_score = outputs # 定義判別器對假圖像（即由潛在空間點生成的圖像）的損失函數(shù) z = torch.randn(batch_size, latent_size).to(device) fake_images = G(z) outputs = D(fake_images) d_loss_fake = criterion(outputs, fake_labels) fake_score = outputs # 得到判別器總的損失函數(shù) d_loss = d_loss_real + d_loss_fake

??生成網(wǎng)絡(luò)G(𝒛) ：我們希望 $x_f$ = 𝐺(𝒛)能夠很好地騙過判別網(wǎng)絡(luò) D，假樣本 $x_f$ 在判別網(wǎng)絡(luò)的輸出越接近真實的標(biāo)簽越好。也就是說，在訓(xùn)練生成網(wǎng)絡(luò)時，希望判別網(wǎng)絡(luò)的輸出𝐷(𝐺(𝒛))越逼近 1 越好，最小化𝐷(𝐺(𝒛))與 1 之間的交叉熵?fù)p失函數(shù)：
將最小化轉(zhuǎn)成最大化的問題并寫成期望的形式：
等價成：

其中𝜙為生成網(wǎng)絡(luò) G 的參數(shù)集，可以利用梯度下降算法來優(yōu)化參數(shù)𝜙。具體代碼如下：

z = torch.randn(batch_size, latent_size).to(device) fake_images = G(z) outputs = D(fake_images) g_loss = criterion(outputs, real_labels)

??通過對生成器和判別器的損失函數(shù)的求解，GAN的架構(gòu)如下：

算法流程為：

1.3 用GAN生成圖像

??本次實驗為了方便，我使用的是 MNIST 手寫數(shù)字?jǐn)?shù)據(jù)集，下面進(jìn)行每部分的代碼實現(xiàn)。

1.3.1 判別器

??定義判別器網(wǎng)絡(luò)結(jié)構(gòu)，這里使用LeakyReLU為激活函數(shù)，輸出一個節(jié)點并經(jīng)過Sigmoid后輸出，用于真假二分類。

class Discriminator(nn.Module) :def __init__(self) :super(Discriminator, self).__init__()self.D = nn.Sequential(nn.Linear(IMAGE_SIZE, HIDDEN_SIZE),nn.LeakyReLU(0.2),nn.Linear(HIDDEN_SIZE, HIDDEN_SIZE),nn.LeakyReLU(0.2),nn.Linear(HIDDEN_SIZE, 1),nn.Sigmoid())

1.3.2 生成器

??生成器與AVE的生成器類似，不同的地方是輸出為nn.tanh，使用nn.tanh 將使數(shù)據(jù)分布在[-1,1]之間。其輸入是潛在空間的向量z，輸出維度與真圖像相同。

class Generator(nn.Module) :def __init__(self):super(Generator, self).__init__()self.G = nn.Sequential(nn.Linear(Z_SIZE, HIDDEN_SIZE),nn.ReLU(),nn.Linear(HIDDEN_SIZE, HIDDEN_SIZE),nn.ReLU(),nn.Linear(HIDDEN_SIZE, IMAGE_SIZE),nn.Tanh())def forward(self, z) :return self.G(z)

1.3.3 訓(xùn)練模型

for epoch in range(MAX_EPOCH) :for i, (images, labels) in enumerate(Dataloader) :images = images.reshape(BATCH_SIZE, -1).cuda()#真樣本與生成樣本的標(biāo)簽設(shè)置real_labels = torch.ones(BATCH_SIZE, 1).cuda()fake_labels = torch.zeros(BATCH_SIZE, 1).cuda()#訓(xùn)練判別器d_optimizer.zero_grad()g_optimizer.zero_grad()out = D(images)real_score = outd_loss_real = criterion(out, real_labels)z = torch.randn(BATCH_SIZE, Z_SIZE).cuda()fake_images = G(z)out = D(fake_images)fake_score = outd_loss_fake = criterion(out, fake_labels)d_loss = d_loss_fake + d_loss_reald_loss.backward()d_optimizer.step()#訓(xùn)練生成器d_optimizer.zero_grad()g_optimizer.zero_grad()z = torch.randn(BATCH_SIZE, Z_SIZE).cuda()fake_images = G(z)out = D(fake_images)g_loss = criterion(out, real_labels)g_loss.backward()g_optimizer.step()if (i + 1) % 200 == 0:print('Epoch [{}/{}], Step [{}/{}], d_loss: {:.4f}, g_loss: {:.4f}, D(x): {:.2f}, D(G(z)): {:.2f}'.format(epoch, MAX_EPOCH, i + 1, len(Dataloader), d_loss.item(), g_loss.item(),real_score.mean().item(), fake_score.mean().item()))# 保存真圖片if (epoch + 1) == 1:images = images.reshape(images.size(0), 1, 28, 28)save_image(denorm(images), os.path.join(sample_dir, 'real_images.png'))# 保存假圖片fake_images = fake_images.reshape(fake_images.size(0), 1, 28, 28)save_image(denorm(fake_images), os.path.join(sample_dir, 'fake_images-{}.png'.format(epoch + 1)))# 保存模型torch.save(G.state_dict(), 'G.ckpt')torch.save(D.state_dict(), 'D.ckpt')

??效果，分別展示epoch為1、100、200時生成的圖片，其中當(dāng)epoch為200時噪聲就已經(jīng)很少了，但是對數(shù)字的分布結(jié)構(gòu)并不能很好的描述出來。

2 GAN變種

2.1 CGAN

??AVE和GAN都能基于潛在空間的隨機向量z生成新圖片，GAN生成的圖像比AVE的更清晰，質(zhì)量更好些。不過它們生成的都是隨機的，無法預(yù)先控制你要生成的哪類或哪個數(shù)。我們希望生成某個數(shù)字，生成某個主題或類別的圖像，實現(xiàn)按需生成的目的，這樣的應(yīng)用應(yīng)該非常廣泛。CGAN正是針對這類問題而提出的。

2.1.1 原理

??在GAN這種完全無監(jiān)督的方式加上一個標(biāo)簽或一點監(jiān)督信息，使整個網(wǎng)絡(luò)就可看成半監(jiān)督模型。其基本架構(gòu)與GAN類似，只要添加一個條件y即可，y就是加入的監(jiān)督信息，比如說MNIST數(shù)據(jù)集可以提供某個數(shù)字的標(biāo)簽信息，人臉生成可以提供性別、是否微笑、年齡等信息，帶某個主題的圖像等標(biāo)簽信息。

??對生成器輸入一個從潛在空間隨機采樣的一個向量z及一個條件y，生成一個符合該條件的圖像G(z/y)。對判別器來說，輸入一張圖像x和條件y，輸出該圖像在該條件下的概率D(x/y)。

2.1.2 PyTorch實現(xiàn)

??CGAN實現(xiàn)采用的數(shù)據(jù)集依然是 MNIST 手寫數(shù)字?jǐn)?shù)據(jù)集，其實現(xiàn)過程與原始的GAN的相差不大，主要差異時是標(biāo)注信息的添加。

import torch import torch.nn as nn import torch.optim as optim import os import matplotlib.pyplot as plt import torchvision.transforms as transforms from torchvision import datasets from torch.utils.data import DataLoader from torchvision.utils import save_image from torch.utils.tensorboard import SummaryWriter from torchvision.utils import make_grid#設(shè)置超參數(shù) MAX_EPOCH = 50 LR_RATE = 0.0001 BATCH_SIZE = 100writer = SummaryWriter(log_dir = 'logs') sample_dir = 'samples_CGAN' os.makedirs(sample_dir, exist_ok = True)Dataset = datasets.MNIST(root = 'data',download = False,train = True,transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize([0.5], [0.5])]))Dataloader = DataLoader(Dataset, batch_size = BATCH_SIZE, shuffle = True, drop_last = True)#生成器 class Generator(nn.Module) :def __init__(self):super(Generator, self).__init__()self.embedding = nn.Embedding(10, 10)self.G = nn.Sequential(nn.Linear(110, 256),nn.LeakyReLU(0.2),nn.Linear(256, 512),nn.LeakyReLU(0.2),nn.Linear(512, 1024),nn.LeakyReLU(0.2),nn.Linear(1024, 784),nn.Tanh())def forward(self, z, labels) :y = self.embedding(labels)x = torch.cat([z, y], dim = 1)out = self.G(x)return out.view(z.size(0), 28, 28)#判別器 class Discriminator(nn.Module) :def __init__(self) :super(Discriminator, self).__init__()self.embedding = nn.Embedding(10, 10)self.D = nn.Sequential(nn.Linear(794, 1024),nn.LeakyReLU(0.2),nn.Dropout(0.4),nn.Linear(1024, 512),nn.LeakyReLU(0.2),nn.Dropout(0.4),nn.Linear(512, 256),nn.LeakyReLU(0.2),nn.Dropout(0.4),nn.Linear(256, 1),nn.Sigmoid())def forward(self, x, labels):x = x.view(x.size(0), -1)y = self.embedding(labels)x = torch.cat([x, y], dim = 1)out = self.D(x)return out#Clamp函數(shù)x限制在區(qū)間[min, max]內(nèi) def denorm(x):out = (x + 1) / 2return out.clamp(0, 1)D = Discriminator().cuda() G = Generator().cuda() d_optimizer = optim.Adam(D.parameters(), lr = LR_RATE) g_optimizer = optim.Adam(G.parameters(), lr = LR_RATE) criterion = nn.BCELoss()#訓(xùn)練 for epoch in range(MAX_EPOCH) :for i, (images, labels) in enumerate(Dataloader) :step = epoch * len(Dataloader) + i + 1images, labels = images.reshape(BATCH_SIZE, -1).cuda(), labels.cuda()real_labels = torch.ones(BATCH_SIZE, 1).cuda()d_optimizer.zero_grad()g_optimizer.zero_grad()out = D(images, labels)real_score = outd_loss_real = criterion(out, real_labels)z = torch.randn(BATCH_SIZE, 100).cuda()fake_labels = torch.randint(0, 10, (BATCH_SIZE, )).cuda()fake_images = G(z, fake_labels)out = D(fake_images, fake_labels)fake_score = outd_loss_fake = criterion(out, torch.zeros(BATCH_SIZE, 1).cuda())d_loss = d_loss_fake + d_loss_reald_loss.backward()d_optimizer.step()d_optimizer.zero_grad()g_optimizer.zero_grad()z = torch.randn(BATCH_SIZE, 100).cuda()fake_images = G(z, fake_labels)out = D(fake_images, fake_labels)g_loss = criterion(out, real_labels)g_loss.backward()g_optimizer.step()if (i + 1) % 200 == 0:print('Epoch [{}/{}], Step [{}/{}], d_loss: {:.4f}, g_loss: {:.4f}, D(x): {:.2f}, D(G(z)): {:.2f}'.format(epoch, MAX_EPOCH, i + 1, len(Dataloader), d_loss.item(), g_loss.item(),real_score.mean().item(), fake_score.mean().item()))# 保存真圖片if (epoch + 1) == 1:images = images.reshape(images.size(0), 1, 28, 28)save_image(denorm(images), os.path.join(sample_dir, 'real_images.png'))# 保存假圖片fake_images = fake_images.reshape(fake_images.size(0), 1, 28, 28)save_image(denorm(fake_images), os.path.join(sample_dir, 'fake_images-{}.png'.format(epoch + 1)))# 可視化損失值writer.add_scalars('scalars', {'d_loss': d_loss.item(), 'g_loss': g_loss.item()}, step)# 保存模型torch.save(G.state_dict(), 'G.ckpt')torch.save(D.state_dict(), 'D.ckpt')#利用網(wǎng)格（10×10）的形式顯示指定條件下生成的圖像。 z = torch.randn(100, 100).cuda() labels = torch.LongTensor([i for i in range(10) for _ in range(10)]).cuda() images = G(z, labels).unsqueeze(1) grid = make_grid(images, nrow = 10, normalize = True) fig, ax = plt.subplots(figsize = (10, 10)) ax.imshow(grid.permute(1, 2, 0).detach().cpu().numpy(), cmap = 'binary') ax.axis('off') plt.show()#可視化指定單個數(shù)字條件下生成的數(shù)字 def generate_digit(generator, digit) :z = torch.randn(1, 100).cuda()label = torch.LongTensor([digit]).cuda()img = generator(z, label).detach().cpu()img = 0.5 * img + 0.5return transforms.ToPILImage()(img) generate_digit(G, 8)

利用網(wǎng)格（10×10）的形式顯示指定條件下生成的圖像：

可視化指定單個數(shù)字條件下生成的數(shù)字：

可視化生成器和判別器損失值如下：

由上圖可知，CGAN的訓(xùn)練過程不像一般神經(jīng)網(wǎng)絡(luò)的過程，它是判別器和生成器互相競爭的過程，最后兩者達(dá)成一個平衡。

2.2 DCGAN

??在前面中無論是原始的GAN還是CGAN我們建立的網(wǎng)絡(luò)都是基于全連接網(wǎng)絡(luò)構(gòu)建的，這樣的網(wǎng)絡(luò)由于圖片的維度較高，網(wǎng)絡(luò)參數(shù)量巨大，不能很好地學(xué)習(xí)到圖片地特征，導(dǎo)致訓(xùn)練效果不佳。DCGAN提出了使用轉(zhuǎn)置卷積層實現(xiàn)的生成網(wǎng)絡(luò)，普通卷積層來實現(xiàn)的判別網(wǎng)絡(luò)，大大地降低了網(wǎng)絡(luò)參數(shù)量，同時圖片的生成效果也大幅提升，展現(xiàn)了 GAN 模型在圖片生成效果上超越 VAE 模型的潛質(zhì)。注：雖然使用卷積網(wǎng)絡(luò)會大大降低參數(shù)量，但是所需要的樣本數(shù)要更多一些。

2.3 CycleGAN

CycleGAN 是一種無監(jiān)督方式，主要用于圖片風(fēng)格相互轉(zhuǎn)換的。CycleGAN 基本的思想是，如果由圖片 A 轉(zhuǎn)換到圖片 B，再從圖片 B 轉(zhuǎn)換到A′，那么A′應(yīng)該和 A 是同一張圖片。因此除了設(shè)立標(biāo)準(zhǔn)的 GAN 損失項外，CycleGAN 還增設(shè)了循環(huán)一致性損失(Cycle Consistency Loss)，來保證A′盡可能與 A 逼近。

2.4 WGAN

??GAN 的訓(xùn)練問題一直被詬病，很容易出現(xiàn)訓(xùn)練不收斂和模式崩塌的現(xiàn)象。WGAN 從理論層面分析了原始的 GAN 使用 JS 散度存在的缺陷，并提出了可以使用 Wasserstein 距離來解決這個問題。在 WGAN-GP 中，作者提出了通過添加梯度懲罰項，從工程層面很好的實現(xiàn)了 WGAN 算法，并且實驗性證實了 WGAN 訓(xùn)練穩(wěn)定的優(yōu)點。

3 訓(xùn)練GAN的技巧

批量加載和批規(guī)范化，有利于提升訓(xùn)練過程中博弈的穩(wěn)定性。
使用tanh激活函數(shù)作為生成器最后一層，將圖像數(shù)據(jù)規(guī)范在-1和1之間，一般不用sigmoid。
選用Leaky ReLU作為生成器和判別器的激活函數(shù)，有利于改善梯度的稀疏性，稀疏的梯度會妨礙GAN的訓(xùn)練。
使用卷積層時，考慮卷積核的大小能被步幅整除，否則，可能導(dǎo)致生成的圖像中存在棋盤狀偽影。

全部代碼可以參考此處
參考

《Python深度學(xué)習(xí)基于PyTorch》
《TensorFlow深度學(xué)習(xí)》

總結(jié)

以上是生活随笔為你收集整理的机器学习(八) 生成对抗网络(GAN)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Mac OS X 10.11 EI Ca
下一篇：自动加域脚本，bat和vbs配合使用，使