當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【GAN的应用】基于对抗学习的图像美学增强方法

發(fā)布時(shí)間：2025/3/20 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了【GAN的应用】基于对抗学习的图像美学增强方法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

好久不見(jiàn)~甚是想念

由于年底了要處理的事情變得特別多，突然間醒悟好久沒(méi)更新啦

于是深夜給大家?guī)?lái)一篇生成對(duì)抗網(wǎng)絡(luò)在圖片美學(xué)增強(qiáng)上的應(yīng)用。

首先來(lái)個(gè)小問(wèn)題，你能猜出下圖的（b）（c）那一個(gè)是手動(dòng)PS，哪一個(gè)是自動(dòng)PS么？？

不知道大家有沒(méi)有猜對(duì)，反正我是一臉懵逼，因?yàn)橛X(jué)得都不錯(cuò) [攤手]

如何獲得堪比手動(dòng)PS的自動(dòng)PS效果呢？下面就具體講講GAN網(wǎng)絡(luò)實(shí)現(xiàn)圖片風(fēng)格自動(dòng)增強(qiáng)的方法。

傳統(tǒng)的圖片自動(dòng)增強(qiáng)方法需要全監(jiān)督的分別訓(xùn)練圖片尺寸修改模型（cropping）與顏色增強(qiáng)（color enhancement）模型。而作者提出的EnhanceGAN只需要弱監(jiān)督（一個(gè)表示美學(xué)質(zhì)量的二進(jìn)制標(biāo)簽即可），并且可以對(duì)尺寸修改與色彩增強(qiáng)的模型參數(shù)實(shí)現(xiàn)自適應(yīng)調(diào)整。

相關(guān)概念

Aesthetic Quality Assessment:

? ? ? ? 基于人的審美感知區(qū)分美學(xué)上高質(zhì)量與低質(zhì)量的圖片。一般基于data-driven的CNN網(wǎng)絡(luò)模型。

Automatic Image Enhancement:

? ? ? ? 主要分為以下兩點(diǎn)

Cropping and Re-targeting: 旨在尋找最能表現(xiàn)美學(xué)價(jià)值的區(qū)域，將照片進(jìn)行裁剪等修改使之更具有美學(xué)觀賞性。

Color Enhancement and Style Transfer: 通過(guò)調(diào)整畫(huà)面整體顏調(diào)使美學(xué)效果更加突出。使用regression models 和 ranking models 將輸入圖片映射到相應(yīng)的groundtruth。

網(wǎng)絡(luò)模型結(jié)構(gòu)

Preliminary

傳統(tǒng)的GAN網(wǎng)絡(luò)由一個(gè)生成器G和一個(gè)判別器D構(gòu)成

假設(shè)pg為z~pz時(shí)G(z)的分布，當(dāng)pg收斂于實(shí)際數(shù)據(jù)分布pdata時(shí)，式(1)將達(dá)到全局最優(yōu)值。

文章中作者參考了[1]里面的損失函數(shù)的定義

式中fw是K-Lipschitz連續(xù)，可通過(guò)判別網(wǎng)絡(luò)D進(jìn)行逼近。

Generator Network (NetG)

與普通GAN不同的是，文中設(shè)計(jì)的EnhanceGAN可自學(xué)習(xí)圖片風(fēng)格增強(qiáng)的參數(shù){o}。對(duì)應(yīng)不同的變換系數(shù){To}，給定輸入圖片I，可得到輸出

其中oL和oAB分別對(duì)應(yīng)光照與顏色的調(diào)整系數(shù)，ocrop對(duì)應(yīng)裁剪參數(shù)。

Generator network的結(jié)構(gòu)采用ResNet-101（不含最后一層全連接層），并將最后一層池化層用來(lái)保存特征映射后的空間信息。如下圖a所示。

圖片裁剪的目的則是獲得系數(shù)ocrop=[x,y,w,h]。基于attention models [2]，cropping模型采用了一個(gè)卷積層（2048 --1），kernel size 1*1。如下圖b所示。

而Top-K average pooling則是根據(jù)概率將元素聚類(lèi)。如下圖c所示。

Generator網(wǎng)絡(luò)效果如下所示

而顏色增強(qiáng)模型在CIELab color space上，對(duì)于每一個(gè)像素點(diǎn)m，都有如下定義

其中系數(shù)oL=[a,b,p,q]和oAB=[oA,oB]=[a,b]均可有the?convolution layer (2048--7)卷積層獲得。

L,A,B的輸入輸出關(guān)系如下圖所示

Generator 的損失函數(shù)LG則可有如下幾種形式

Adversarial Loss:

Perceptual Loss:

Regularization Loss:

Discriminator Network (NetD)

文章所設(shè)計(jì)的判別網(wǎng)絡(luò)用于評(píng)估圖片美學(xué)質(zhì)量。將ResNet-101網(wǎng)絡(luò)中最后一層分類(lèi)器轉(zhuǎn)變?yōu)橐粋€(gè)2個(gè)全連接神經(jīng)元的輸出層。

根據(jù)式(2)可以獲得LD的損失函數(shù)為

實(shí)驗(yàn)

作者將所設(shè)計(jì)的網(wǎng)絡(luò)應(yīng)用于CUHK-PhotoQuality Dataset (CUHK-PQ)和AVA Dataset。

1. Quantitative Evaluation

1）圖片美學(xué)質(zhì)量評(píng)估

2）圖片自動(dòng)裁剪

作者定義了一個(gè)overlap ratio與Displacement Error來(lái)對(duì)裁剪效果進(jìn)行評(píng)估

評(píng)估結(jié)果如下兩表所示

2. User Study

我們讓一個(gè)專(zhuān)業(yè)的修圖師幫我們用PS處理下100幅圖片與文中所設(shè)計(jì)的EnhanceGAN處理的100幅圖片進(jìn)行對(duì)比，將圖片發(fā)給26個(gè)評(píng)委進(jìn)行打分，具體分?jǐn)?shù)分布如下所示

下列是具體圖片的得分分布

據(jù)統(tǒng)計(jì)，作者提出的 EnhanceGAN 美學(xué)評(píng)價(jià)均分為5.327，專(zhuān)業(yè)的人工修圖得分為 5.419 ，原圖得分4.254 。

可以說(shuō)，設(shè)計(jì)的網(wǎng)絡(luò)在圖片風(fēng)格自動(dòng)增強(qiáng)方面還是很不錯(cuò)的~

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan.?arXiv:1701.07875, 2017. 2, 3, 4, 5, 7

[2]?K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R. Salakhutdinov,?R. S. Zemel, and Y. Bengio. Show, attend and tell:?Neural image caption generation with visual attention. In?ICML, volume 14, 2015. 4

論文來(lái)源：

Deng Y, Loy C C, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. arXiv preprint arXiv:1707.05251, 2017.

隨著攝影平臺(tái)積累的數(shù)據(jù)和用戶(hù)的手動(dòng)標(biāo)注信息越來(lái)越多，相關(guān)的公司和團(tuán)隊(duì)在這個(gè)研究上將具有絕對(duì)壓倒性的優(yōu)勢(shì)。

? ? ? ? 這里還是給自己的攝影分享公眾號(hào)《言有三工作室》和攝影平臺(tái)500px，圖蟲(chóng)做個(gè)宣傳。

????????知乎專(zhuān)欄已經(jīng)開(kāi)通，歡迎來(lái)吐槽，投稿

https://zhuanlan.zhihu.com/c_146817036?group_id=923257138554384384

總結(jié)

以上是生活随笔為你收集整理的【GAN的应用】基于对抗学习的图像美学增强方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： MNA-CNN: 如何在美学质量评估中储
下一篇： [caffe解读] caffe从数学公式