【GAN的应用】基于对抗学习的图像美学增强方法
好久不見~甚是想念
由于年底了要處理的事情變得特別多,突然間醒悟好久沒更新啦
于是深夜給大家?guī)硪黄蓪咕W(wǎng)絡(luò)在圖片美學(xué)增強上的應(yīng)用。
首先來個小問題,你能猜出下圖的(b)(c)那一個是手動PS,哪一個是自動PS么??
不知道大家有沒有猜對,反正我是一臉懵逼,因為覺得都不錯 [攤手]
如何獲得堪比手動PS的自動PS效果呢?下面就具體講講GAN網(wǎng)絡(luò)實現(xiàn)圖片風格自動增強的方法。
傳統(tǒng)的圖片自動增強方法需要全監(jiān)督的分別訓(xùn)練圖片尺寸修改模型(cropping)與顏色增強(color enhancement)模型。而作者提出的EnhanceGAN只需要弱監(jiān)督(一個表示美學(xué)質(zhì)量的二進制標簽即可),并且可以對尺寸修改與色彩增強的模型參數(shù)實現(xiàn)自適應(yīng)調(diào)整。
相關(guān)概念
Aesthetic Quality Assessment:
? ? ? ? 基于人的審美感知區(qū)分美學(xué)上高質(zhì)量與低質(zhì)量的圖片。一般基于data-driven的CNN網(wǎng)絡(luò)模型。
Automatic Image Enhancement:
? ? ? ? 主要分為以下兩點
Cropping and Re-targeting: 旨在尋找最能表現(xiàn)美學(xué)價值的區(qū)域,將照片進行裁剪等修改使之更具有美學(xué)觀賞性。
Color Enhancement and Style Transfer: 通過調(diào)整畫面整體顏調(diào)使美學(xué)效果更加突出。使用regression models 和 ranking models 將輸入圖片映射到相應(yīng)的groundtruth。
網(wǎng)絡(luò)模型結(jié)構(gòu)
Preliminary
傳統(tǒng)的GAN網(wǎng)絡(luò)由一個生成器G和一個判別器D構(gòu)成
假設(shè)pg為z~pz時G(z)的分布,當pg收斂于實際數(shù)據(jù)分布pdata時,式(1)將達到全局最優(yōu)值。
文章中作者參考了[1]里面的損失函數(shù)的定義
式中fw是K-Lipschitz連續(xù),可通過判別網(wǎng)絡(luò)D進行逼近。
Generator Network (NetG)
與普通GAN不同的是,文中設(shè)計的EnhanceGAN可自學(xué)習(xí)圖片風格增強的參數(shù){o}。對應(yīng)不同的變換系數(shù){To},給定輸入圖片I,可得到輸出
其中oL和oAB分別對應(yīng)光照與顏色的調(diào)整系數(shù),ocrop對應(yīng)裁剪參數(shù)。
Generator network的結(jié)構(gòu)采用ResNet-101(不含最后一層全連接層),并將最后一層池化層用來保存特征映射后的空間信息。如下圖a所示。
圖片裁剪的目的則是獲得系數(shù)ocrop=[x,y,w,h]。基于attention models [2],cropping模型采用了一個卷積層(2048 --1),kernel size 1*1。如下圖b所示。
而Top-K average pooling則是根據(jù)概率將元素聚類。如下圖c所示。
Generator網(wǎng)絡(luò)效果如下所示
而顏色增強模型在CIELab color space上,對于每一個像素點m,都有如下定義
其中系數(shù)oL=[a,b,p,q]和oAB=[oA,oB]=[a,b]均可有the?convolution layer (2048--7)卷積層獲得。
L,A,B的輸入輸出關(guān)系如下圖所示
Generator 的損失函數(shù)LG則可有如下幾種形式
Adversarial Loss:
Perceptual Loss:
Regularization Loss:
Discriminator Network (NetD)
文章所設(shè)計的判別網(wǎng)絡(luò)用于評估圖片美學(xué)質(zhì)量。將ResNet-101網(wǎng)絡(luò)中最后一層分類器轉(zhuǎn)變?yōu)橐粋€2個全連接神經(jīng)元的輸出層。
根據(jù)式(2)可以獲得LD的損失函數(shù)為
實驗
作者將所設(shè)計的網(wǎng)絡(luò)應(yīng)用于CUHK-PhotoQuality Dataset (CUHK-PQ)和AVA Dataset。
1. Quantitative Evaluation
1)圖片美學(xué)質(zhì)量評估
2)圖片自動裁剪
作者定義了一個overlap ratio與Displacement Error來對裁剪效果進行評估
評估結(jié)果如下兩表所示
2. User Study
我們讓一個專業(yè)的修圖師幫我們用PS處理下100幅圖片與文中所設(shè)計的EnhanceGAN處理的100幅圖片進行對比,將圖片發(fā)給26個評委進行打分,具體分數(shù)分布如下所示
下列是具體圖片的得分分布
據(jù)統(tǒng)計,作者提出的 EnhanceGAN 美學(xué)評價均分為5.327,專業(yè)的人工修圖得分為 5.419 ,原圖得分4.254 。
可以說,設(shè)計的網(wǎng)絡(luò)在圖片風格自動增強方面還是很不錯的~
[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan.?arXiv:1701.07875, 2017. 2, 3, 4, 5, 7
[2]?K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R. Salakhutdinov,?R. S. Zemel, and Y. Bengio. Show, attend and tell:?Neural image caption generation with visual attention. In?ICML, volume 14, 2015. 4
論文來源:
Deng Y, Loy C C, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. arXiv preprint arXiv:1707.05251, 2017.
隨著攝影平臺積累的數(shù)據(jù)和用戶的手動標注信息越來越多,相關(guān)的公司和團隊在這個研究上將具有絕對壓倒性的優(yōu)勢。
? ? ? ? 這里還是給自己的攝影分享公眾號《言有三工作室》和攝影平臺500px,圖蟲做個宣傳。
????????知乎專欄已經(jīng)開通,歡迎來吐槽,投稿
https://zhuanlan.zhihu.com/c_146817036?group_id=923257138554384384
總結(jié)
以上是生活随笔為你收集整理的【GAN的应用】基于对抗学习的图像美学增强方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MNA-CNN: 如何在美学质量评估中储
- 下一篇: [caffe解读] caffe从数学公式