NVIDIA针对数据不充分数据集进行生成改进,大幅提高CIFAR-10数据生成
?PaperWeekly 原創(chuàng) ·?作者|武廣
學校|合肥工業(yè)大學碩士生
研究方向|圖像生成
生成對抗網(wǎng)絡因其優(yōu)異的生成質(zhì)量而得到廣泛的關(guān)注,然而想要得到高質(zhì)量的生成結(jié)果往往需要大批量的訓練數(shù)據(jù)進行加持才能訓練出逼真的生成結(jié)果,這點在各大主流優(yōu)秀的生成對抗網(wǎng)絡模型下得到驗證。一旦訓練數(shù)據(jù)不足的情況下能否得到優(yōu)秀的結(jié)果,能否讓判別器不去過度擬合訓練樣本呢??
這個問題由來自 NVIDIA 的研究者付諸行動并給出了一定的解決方案,本文將共同來閱讀論文 Training Generative Adversarial Networks with Limited Data。
論文引入
龐大的數(shù)據(jù)集在背后推動著生成模型的發(fā)展,然而為特定應用收集足夠大的圖像集是存在挑戰(zhàn)的,這要求數(shù)據(jù)要對主題類型,圖像質(zhì)量,地理位置,時間段,隱私,版權(quán)狀態(tài)等施加限制,就比如 CelebA 數(shù)據(jù)集,在人臉位置、質(zhì)量和圖像的大小都存在著嚴格的要求,這個要求一旦施加在上十萬張圖像數(shù)據(jù)集下就是很龐大的工作量。
而 GAN 訓練的樣本量往往是在 量級,這對于醫(yī)學圖像和小樣本的數(shù)據(jù)訓練是困難的,往往導致的是判別器過度擬合訓練數(shù)據(jù),此時判別器對生成器的反饋就會變得毫無意義,并且導致訓練出現(xiàn)分歧。文章中做了在不同量級下數(shù)據(jù)集對生成質(zhì)量的影響,結(jié)果如圖 1 所示。
▲圖1.不同量級下數(shù)據(jù)集對生成質(zhì)量的影響
圖 1a 顯示了 FFHQ 不同子集的基線結(jié)果,在每種情況下,訓練都以相同的方式開始,但是隨著訓練的進行,FID 開始上升。訓練數(shù)據(jù)越少,越早發(fā)生。圖 1b,c 顯示了訓練過程中真實圖像和生成圖像的判別器輸出分布。
分布最初是重疊的,但隨著判別器變得越來越有把握,它們會保持漂移,FID 開始惡化的點與分布之間失去足夠的重疊是一致的。由圖 1c 可以看到,當判別器過分擬合訓練數(shù)據(jù)時,即使是真實圖像的驗證集也會判別和生成數(shù)據(jù)分布一致,這就是判別器過度擬合到了訓練數(shù)據(jù)上的有力說明。
既然過擬合問題出現(xiàn)了,而且是由于數(shù)據(jù)集不足導致的,那能不能擴充數(shù)據(jù)集(旋轉(zhuǎn)、加噪聲)進行解決呢?
然而擴充數(shù)據(jù)集往往在訓練分類器這樣的判別語義信息任務是有效的,但是簡單的擴充數(shù)據(jù)集在 GAN 中將會導致“泄漏”,這主要是由于數(shù)據(jù)集的擴充會導致 GAN 學習生成擴充的數(shù)據(jù)分布。
本文要介紹的論文 Training Generative Adversarial Networks with Limited Data?利用多樣的數(shù)據(jù)擴充來防止判別器過度擬合的同時確保擴充不會"泄漏"到生成的圖像中。
論文標題:Training Generative Adversarial Networks with Limited Data
論文鏈接:https://arxiv.org/abs/2006.06676
總結(jié)一下 ADA 方法在生成模型上的優(yōu)勢:
ADA 可以實現(xiàn)少樣本數(shù)據(jù)下的較好質(zhì)量的生成
ADA 可以保證數(shù)據(jù)擴充前提下防治數(shù)據(jù)的"泄漏"
自適應的判別器增強保證了模型不輕易出現(xiàn)過擬合,模型更加穩(wěn)定
數(shù)據(jù)不充分下生成改進
數(shù)據(jù)不充分的情況下進行數(shù)據(jù)擴充無疑是最直接了當?shù)慕鉀Q方式,傳統(tǒng)的 GAN 訓練數(shù)據(jù)集的任何擴充都將繼承到生成的圖像,這無疑是數(shù)據(jù)擴充不希望得到的結(jié)果,如何解決呢?
2.1 數(shù)據(jù)擴充
平衡一致性正則化(bCR)提出了應用于同一輸入圖像的兩組擴增應產(chǎn)生相同的輸出,為判別器損失上添加一致性正則項,也為真實圖像和生成的圖像實施判別器一致性,而訓練生成器時則不應用增強或一致性損失,這部分直觀的理解如圖 2a 所示。
然而,bCR 中生成器可以自由生成包含擴充的圖像而不會受到任何懲罰,這就導致了“泄漏”的進一步增強,文章在后面實驗部分也驗證了 bCR 確實導致了“泄漏”的發(fā)生。
▲ 圖2.bCR與DA下生成模型設(shè)計
文章設(shè)計了一種新的擴充方式,與 bCR 相似也是對輸入到判別器的圖像應用了增強。但是,該方法并沒有使用單獨的 CR 損失項,而是僅使用增強圖像來評估判別器,并且在訓練生成器時也要這樣做(圖 2b)。
文章稱之為判別器增強(discriminator augmentation,DA),這種方法看上去非常簡單,甚至你在乍一看都會質(zhì)疑它是否可以正常工作,是不是會懷疑判別器從未看到訓練圖像的真實外觀的情況下,能否可以正確地指導生成器(圖 2c)。為此,文章研究了在何種情況下 DA 不會泄漏對所生成圖像的增強。
2.2 設(shè)計不會"泄漏"的數(shù)據(jù)擴充(DA)
[1] 考慮了訓練 GAN 時的類似問題,并表明只要隱含的過程由數(shù)據(jù)空間上概率分布的可逆轉(zhuǎn)換來表示,訓練就隱式地消除了損壞并找到了正確的分布,稱這種增強算子為非泄漏。這些可逆變換的功能在于,它們可以通過僅觀察擴充的集合來得出有關(guān)基礎(chǔ)集合的相等性或不平等性的結(jié)論。
在圖 2b 中,我們可以看到 DA 設(shè)計的時候在數(shù)據(jù)增強上(數(shù)據(jù)增強這里可以理解為數(shù)據(jù)擴充),做了增強概率 的設(shè)計,以 的概率進行數(shù)據(jù)的增強,此時的數(shù)據(jù)增強將不是絕對的改變數(shù)據(jù)(旋轉(zhuǎn)、翻轉(zhuǎn)和縮放、色彩增強等)。
這樣生成模型將看到的是更多正常的圖像,然而一些數(shù)據(jù)增強是不會影響最后的生成結(jié)果,例如各向同性圖像縮放,文章也是利用實驗對其它情況進行直觀的解釋,整個過程如圖 3 所示。
▲ 圖3.不同增強下p對“泄漏”的影響
在圖 3 中,通過三個實際示例來驗證我們的分析,上方的圖像代表著對應不同 的時候,模型生成的圖像,這也通過 FID 進行可視化展示。
在 a 中進行各向同性圖像縮放,無論 p 的值如何,其均不會泄漏。但是在圖 3b 中,當 p 太高時,生成器無法知道生成的圖像應面向哪個方向并最終隨機選擇一種可能性。
實際上,由于有限采樣,網(wǎng)絡的有限表示能力,歸納偏差和訓練動態(tài),當 p 保持在 以下時,生成的圖像始終正確定向。在這些區(qū)域之間,生成器有時會最初選擇錯誤的方向,然后向正確的分布部分漂移。
對于一系列連續(xù)的色彩增強,也具有相同的觀察結(jié)果(圖 3c)。該實驗表明,只要 保持在 0.8 以下,實際上就不太可能發(fā)生“泄漏”。
2.3 文章采用的數(shù)據(jù)擴充方式
文章借鑒了 RandAugment [9] 在圖像分類任務中的成功,考慮了 18 種變換的流水線,這些變換分為 6 類:像素層(x 翻轉(zhuǎn),90° 旋轉(zhuǎn),整數(shù)平移),更一般的幾何變換,顏色變換,圖像空間濾波,加性噪聲和摳圖。由于在訓練生成器時,也會執(zhí)行增強,這要求增強是可區(qū)分的。
在訓練過程中,使用一組固定的預定義變換來處理圖像給判別器,增強的強度控制在 , 控制,在 DA 設(shè)計上,對于所有轉(zhuǎn)換,始終使用相同的 p 值。隨機化是針對每個擴展和一個小批量中的每個圖像分別進行,只要 p 保持在實際安全極限以下,就引導發(fā)生器僅產(chǎn)生清晰的圖像。
文章通過對不同的擴充類別和數(shù)據(jù)集大小對 進行詳盡的掃描來研究 DA 的有效性,整個實驗結(jié)果如圖 4 所示。
▲ 圖4.不同增強下實驗結(jié)果
在許多情況下,DA 可以顯著改善結(jié)果,最佳增強強度在很大程度上取決于訓練數(shù)據(jù)的數(shù)量,絕大多數(shù)來自像素層和幾何變換上的增強,顏色轉(zhuǎn)換適度有益,而圖像空間過濾,噪點和裁切并不是特別有用。
曲線還表明,當 時,某些增強會泄漏。對于 10k 的訓練集, 的較高值則會起到不好的結(jié)果,而對于 140k,所有增強都是有害的。
根據(jù)這些結(jié)果,文章最后選擇在模型設(shè)計上僅采用像素層,幾何和顏色轉(zhuǎn)換。圖 4d 顯示,雖然較強的增強會減少過度擬合,但也會減慢收斂速度。
實際上,當固定增強控制 時,對數(shù)據(jù)集大小的敏感性往往需要進行昂貴的網(wǎng)格搜索,依靠任何固定的 p 可能不是最佳選擇,文章進一步就此問題設(shè)計了自適應 來解決這些問題。
2.4 自適應判別器增強(ADA)
文章的設(shè)計目的是希望避免手動調(diào)整增強強度 ,而是根據(jù)過擬合的程度動態(tài)控制它。量化過度擬合的標準方法是使用單獨的驗證集(真實圖像數(shù)據(jù)但是并不在訓練集中),并觀察其相對于訓練集的行為,這個表示方式已經(jīng)在圖 1 的 b 和 c 中體現(xiàn)。
當過度擬合開始時,驗證集開始表現(xiàn)得越來越像生成的圖像。這是可量化數(shù)據(jù)增強的效果,但這也帶來了一問題,就是稍微奢侈了些,尤其是真實樣本已經(jīng)很少了,還要分出來一部分作為驗證集。
訓練集 ,驗證集 和生成圖像 表示判別器的輸出,以及它們在 個連續(xù)小批處理中的平均值 。在實驗上,使用 ,它對于 Bitchsize 為 64 時候,也就是處理 個圖像。文章對圖 1 的觀察結(jié)果轉(zhuǎn)換為兩種可能的過度擬合啟發(fā)式公式:
對于這兩種啟發(fā)式方法,由上述分析我們已經(jīng)知道當過度擬合開始時,驗證集開始表現(xiàn)得越來越像生成的圖像,也就是當 表示沒有過度擬合,而當 表示完全過度擬合,文章的目標是調(diào)整增強概率 ,以使所選的啟發(fā)式方法與合適的目標值匹配。第二個啟發(fā)式算法 估計訓練集中獲得正向判別器輸出的部分。
將 初始化為零,并根據(jù)所選的過擬合試探法( 的值)每四個小批量調(diào)整一次其值,如果試探法表明過度擬合或過度擬合過小,通過將 遞增/遞減固定量來應對。
通過對 從 0 到 1 足夠快地上升,但是例如在 500k 圖像(數(shù)據(jù)量很大),每一步之后, 都被限制為 0,將這種變化稱為自適應判別器增強(ADA),文章也進行了實驗比對,結(jié)果如圖 5 和圖 6 所示。
▲ 圖5.自適應判別器增強評估實驗
在圖 5a,b 中,可以觀察到 和 都可以有效防止過度擬合,并且它們都比使用網(wǎng)格搜索找到的最佳固定 改善了結(jié)果,文章也確定了在后續(xù)實驗中 的初始值設(shè)置為 0.6。圖 5d 顯示了具有自適應 vs 固定 的 的演變,表明固定 在開始時往往太強,而在結(jié)束時往往太弱。
▲ 圖6.ADA驗證實驗
圖 6 使用 ADA 重復了圖 1 的設(shè)置,可以看到無論訓練集的大小如何,都可以實現(xiàn)收斂,并且不再發(fā)生過度擬合。如果不進行擴充,隨著時間的流逝,生成器從判別器接收到的梯度將變得非常簡單,判別器開始僅關(guān)注少數(shù)功能,并且生成器可以自由創(chuàng)建其他無意義的圖像。同時使用 ADA 時,梯度場保持更詳細,從而避免情況的惡化。
實驗與評估
文章在 FFHQ 和 LSUN CAT 進行實驗,有趣的是 ADA 和 bCR 的優(yōu)勢在很大程度上是可加的,圖 7 給出了實驗結(jié)果。
▲ 圖7.FHQ和LSUN CAT下進行實驗
為進一步定量說明,文章和 PA-GAN [2],WGAN-GP [3],zCR [4],auxiliary rotations [5] 和 spectral normalization [6] 進行定量比對,結(jié)果如圖 8,不得不說的是 ADA 在 CIFAR-10 數(shù)據(jù)集下取得了非常好的結(jié)果這在之前的生成模型上是看不到的,這個進步是很大的。
▲ 圖8.定量對比實驗
在遷移學習上,ADA 也展示了優(yōu)越的結(jié)果。
▲ 圖9.ADA在遷移學習下的表現(xiàn)
最后放一下在小型數(shù)據(jù)集 CIFAR-10 數(shù)據(jù)集下,ADA 模型展示的可怕的生成效果:
▲ 圖10.ADA在CIFAR-10數(shù)據(jù)集下定性結(jié)果
總結(jié)
ADA 展示了在訓練數(shù)據(jù)短缺時,自適應判別器擴充可以穩(wěn)定且有效的訓練并極大地提高結(jié)果質(zhì)量。但是也要指出擴充數(shù)據(jù)集并不能替代真實數(shù)據(jù),相同數(shù)據(jù)量下肯定是真實數(shù)據(jù)越多得到的生成效果越好的。
自適應增強的設(shè)計也展示了 NVIDIA 科研上的嚴謹,更值得說的是,NVIDIA 這樣的不太在乎算力資源的研究者能專心在少數(shù)據(jù)樣本的訓練上展開研究本身就是很值得敬佩的。
參考文獻
[1] A. Bora, E. Price, and A. Dimakis. AmbientGAN: Generative models from lossy measurements. In Proc. ICLR, 2018.
[2] D. Zhang and A. Khoreva. PA-GAN: Improving GAN training by progressive augmentation. In Proc. NeurIPS, 2019.
[3] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville. Improved training of Wasserstein GANs. In Proc. NIPS, pages 5769–5779, 2017.
[4] Z. Zhao, S. Singh, H. Lee, Z. Zhang, A. Odena, and H. Zhang. Improved consistency regularization for GANs. CoRR, abs/2002.04724, 2020.
[5] T. Chen, X. Zhai, M. Ritter, M. Lucic, and N. Houlsby. Self-supervised GANs via auxiliary rotation loss. In Proc. CVPR, 2019.
[6] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida. Spectral normalization for generative adversarial networks. In Proc. ICLR, 2018.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的NVIDIA针对数据不充分数据集进行生成改进,大幅提高CIFAR-10数据生成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全新智己 LS6 汽车 10 月 6 日
- 下一篇: 全新 Jeep 指南者预告图发布:明年上