图像超分辨率技术
圖像超分辨率技術(shù)
近年來,隨著高清設(shè)備的普及,用戶端顯示設(shè)備的分辨率已經(jīng)普遍提升到了 2K 甚至更高的水平。相對(duì)早期的游戲或電影在上述設(shè)備上往往無法得到很好的表現(xiàn),這促使了很多經(jīng)典游戲和電影的高清重制工作被提上日程。在整個(gè)重制過程中,最核心的就是多媒體素材的高清重建工作,而該部分工作在過去往往只能通過聘請(qǐng)專業(yè)的設(shè)計(jì)師耗費(fèi)大量的資源來完成。
近年來,圖像超分辨率技術(shù)的發(fā)展為上述問題提供了一個(gè)全新的解決思路。通過圖像超分辨率技術(shù),無需耗費(fèi)大量的資源即可完成多媒體內(nèi)容的高清重建工作,在上述結(jié)果上,設(shè)計(jì)師僅需進(jìn)行簡(jiǎn)單少量的修改即可達(dá)到和人工設(shè)計(jì)相媲美的結(jié)果,大大簡(jiǎn)化了工作的流程,降低了工作的成本。
另一方面,圖像超分辨率技術(shù)在相機(jī)拍攝過程中也有著廣泛的應(yīng)用。近年來,隨著用戶對(duì)手機(jī)拍攝功能的重視,越來越多的廠商將手機(jī)的拍攝性能作為一個(gè)重要的賣點(diǎn)來進(jìn)行宣傳。特別的,相機(jī)的變焦能力作為手機(jī)拍攝性能中的一個(gè)重要指標(biāo)往往深受用戶的重視,其通常可以分為兩部分:光學(xué)變焦與數(shù)碼變焦。其中光學(xué)變焦通過調(diào)整鏡頭來對(duì)焦距進(jìn)行調(diào)整,由于受限于設(shè)備體積的大小,調(diào)整能力比較有限。
一.超分辨率常用深度學(xué)習(xí)方案
- SRCNN
(Learning
a Deep Convolutional Network for Image Super-Resolution,
ECCV2014)
-
FSRCNN
(Accelerating the Super-Resolution
Convolutional Neural Network,
ECCV2016)
圖1. 超分辨率流程
- ESPCN
(Real-Time Single Image and
Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural
Network, CVPR2016)
- VDSR
(Accurate Image
Super-Resolution Using Very Deep Convolutional Networks,
CVPR2016)
- DRCN
(Deeply-Recursive Convolutional
Network for Image Super-Resolution, CVPR2016)
- RED
(Image Restoration Using
Convolutional Auto-encoders with Symmetric Skip Connections, NIPS2016)
- DRRN
(Image Super-Resolution via Deep Recursive Residual Network, CVPR2017)
- LapSRN
(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution, CVPR2017)
- SRDenseNet
(Image Super-Resolution Using Dense Skip Connections,
ICCV2017)
圖2. 超分辨率框架
- SRGAN(SRResNet)
(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR2017)
- EDSR
(Enhanced Deep Residual Networks for Single Image Super-Resolution, CVPRW2017)
二.深度學(xué)習(xí)技術(shù)
相對(duì)的,數(shù)碼變焦則是通過算法來對(duì)圖像進(jìn)行調(diào)整,以達(dá)到模擬光學(xué)變焦的目的,算法的優(yōu)劣很大程度上決定了數(shù)碼變焦的倍數(shù)以及其結(jié)果的好壞。圖像超分辨率技術(shù)相對(duì)于傳統(tǒng)的圖像插值算法,往往能夠提供更大的變焦倍數(shù)以及更好的圖像質(zhì)量,近年來廣泛被各大手機(jī)廠商所采用。如圖3所示,圖像紅框內(nèi)的局部區(qū)域經(jīng)過數(shù)碼變焦后的結(jié)果依然清晰。
圖3:通過圖像超分辨率技術(shù)進(jìn)行數(shù)碼變焦
(左:原始焦距圖像,右:數(shù)碼變焦圖像)
相對(duì)于上述領(lǐng)域,圖像超分辨率技術(shù)在很多專業(yè)領(lǐng)域也有應(yīng)用 [1]。如醫(yī)療影像領(lǐng)域,高質(zhì)量的醫(yī)療影像(如X射線圖像、計(jì)算機(jī)斷層掃描圖像、核磁共振圖像)對(duì)于精確地診斷患者的病因起到了至關(guān)重要的作用,然而高分辨率的醫(yī)療成像設(shè)備往往非常昂貴。通過圖像超分辨率技術(shù),可以在硬件有限的條件下得到更高質(zhì)量的醫(yī)療影像,在便于醫(yī)生做出更加準(zhǔn)確的診斷的同時(shí),也進(jìn)一步降低了患者的開銷。
什么是圖像超分辨率?
像超分辨率是指從低分辨率圖像中恢復(fù)出自然、清晰的紋理,最終得到一張高分辨率圖像,是圖像增強(qiáng)領(lǐng)域中一個(gè)非常重要的問題。近年來,得益于深度學(xué)習(xí)技術(shù)強(qiáng)大的學(xué)習(xí)能力,該問題有了顯著的進(jìn)展。
低分辨率圖像一般通過一系列的退化操作得到,在損失了大量細(xì)節(jié)的同時(shí),也引入了一系列的噪聲。基于深度學(xué)習(xí)的超分辨率過程本質(zhì)上就是通過網(wǎng)絡(luò)模型采用成對(duì)的訓(xùn)練數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)的訓(xùn)練,進(jìn)而擬合上述退化操作的逆操作,得到重建后的高清圖像。不難想象,圖像超分辨率問題是一個(gè)病態(tài)問題,對(duì)于同樣一張低分辨率圖像,往往存在多張可行的高分辨率圖像。如圖4所示,對(duì)于同一張大猩猩毛發(fā)的低分辨率圖像,存在多種合理的高分辨率重建結(jié)果。
圖4:同一張低分辨率圖像可對(duì)應(yīng)多張可行的高分辨率重建結(jié)果 [2]
基于深度學(xué)習(xí)的圖像超分辨率技術(shù)解析
目前主流的圖像超分辨率技術(shù)的解決方案可以分為基于單張圖像的超分辨率技術(shù)和基于參考圖像的超分辨率技術(shù),下面將分別對(duì)其展開介紹。
基于單張圖像的超分辨率是指通過一張輸入圖像對(duì)圖像中的高分辨率細(xì)節(jié)進(jìn)行重建,最終得到圖像超分辨率的結(jié)果,是傳統(tǒng)圖像超分辨率問題中的主流方法。
在眾多方法中,SRCNN 模型 [3] 首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像超分辨率技術(shù),相對(duì)于傳統(tǒng)插值、優(yōu)化算法在重建質(zhì)量上取得了極大的提升。如圖5所示,該模型使用一個(gè)三層的卷積神經(jīng)網(wǎng)絡(luò)來擬合從低分辨率圖像到高分辨率圖像的函數(shù)。特別地,該方法在 FSRCNN 模型 [4] 中被進(jìn)一步優(yōu)化,大大提升了其推理速度。
圖5:SRCNN 模型中的三層卷積結(jié)構(gòu)[3]
圖像超分辨率過程實(shí)際上是高頻紋理信息的生成過程,對(duì)于低頻部分通常來源于輸入的低分辨率圖像。然而,SRCNN 模型的特征學(xué)習(xí)過程不僅要學(xué)習(xí)生成高頻的信息,還需要對(duì)低頻信息進(jìn)行重建,大大的降低了模型的使用效率。針對(duì)于此,VDSR 模型 [5] 首次提出了殘差學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。如圖6所示,通過一個(gè)殘差連接(藍(lán)色箭頭)將輸入圖像直接加到最終的重建高頻殘差上,可以顯著的提升模型的學(xué)習(xí)效率。
圖6:VDSR 模型中的殘差學(xué)習(xí)結(jié)構(gòu) [5]
不難發(fā)現(xiàn),上述方法均是先對(duì)輸入的低分辨率圖像進(jìn)行上采樣,然后再將其送入模型行進(jìn)行學(xué)習(xí),這種做法在降低了模型的推理速度的同時(shí)也大大增加了內(nèi)存的開銷。如圖7所示,EPSCN 模型 [6] 首次提出了子像素卷積操作,在網(wǎng)絡(luò)的最后才將學(xué)習(xí)得到的特征進(jìn)一步放大到目標(biāo)大小,大大提升了模型的訓(xùn)練效率,也使得更深卷積通道數(shù)更多的模型的訓(xùn)練成為了可能。
圖7:ESPCN 模型中的子像素卷積操作[6]
為了進(jìn)一步提升模型的表達(dá)能力,如圖8所示,SRResNet 模型 [2] 首次將被廣泛應(yīng)用于圖像分類任務(wù)中的殘差模塊引入到了圖像超分辨率問題中,取得了很好的結(jié)果。此外,EDSR 模型 [7] 針對(duì)上述網(wǎng)絡(luò)結(jié)構(gòu)提出了進(jìn)一步的優(yōu)化,通過去掉殘差模塊中的批量歸一化層和第二個(gè)激活層,進(jìn)一步提升了模型的性能。
圖8:SRResNet 模型中的殘差模塊結(jié)構(gòu) [2]
近年來,還有很多其他方法從模型的角度進(jìn)行優(yōu)化。如,SRDenseNet 模型 [8] 和 RDN 模型 [9] 引入了稠密卷積模塊,RCAN 模型 [10] 引入了通道注意力機(jī)制,SAN 模型 [11] 引入了二階統(tǒng)計(jì)信息等,上述方法均取得了非常好的結(jié)果。
如前文所述,圖像超分辨率問題是一個(gè)病態(tài)的問題,通過單純的使用平均平方誤差或平均絕對(duì)誤差損失函數(shù)進(jìn)行訓(xùn)練的模型往往會(huì)輸出模糊的圖像。這是因?yàn)樵谡麄€(gè)訓(xùn)練過程中,模型的優(yōu)化得到的最優(yōu)解實(shí)際上是所有可行解的一個(gè)平均值。
針對(duì)上述問題,被廣泛應(yīng)用于圖像風(fēng)格遷移的感知損失函數(shù)和風(fēng)格損失函數(shù)被分別引入圖像超分辨率問題中 [12, 13],某種程度上緩解了上述問題。另一方面,對(duì)抗生成損失函數(shù)在圖像生成模型中取得了很好的結(jié)果,SRGAN 模型 [2] 首次將其應(yīng)用于圖像超分辨率問題,大大的提升了重建圖像的真實(shí)感。
然而上述方法仍存在一定的問題,主要是由于生成對(duì)抗網(wǎng)絡(luò)所依賴的模型能力有限,往往很難對(duì)自然界中的全部紋理進(jìn)行表達(dá),因此在某些紋理復(fù)雜的地方會(huì)生成錯(cuò)誤的紋理(如圖9中的文字部分),帶來不好的觀感。
圖9:基于對(duì)抗生成損失函數(shù)的錯(cuò)誤紋理生成問題 [2]
針對(duì)單張圖像超分辨率技術(shù)中生成對(duì)抗損失函數(shù)引入的錯(cuò)誤紋理生成問題,基于參考圖像的超分辨率技術(shù)為該領(lǐng)域指明了一個(gè)新的方向。基于參考圖像的超分辨率,顧名思義就是通過一張與輸入圖像相似的高分辨率圖像,輔助整個(gè)超分辨率的復(fù)原過程。高分辨率參考圖像的引入,將圖像超分辨率問題由較為困難的紋理恢復(fù)/生成轉(zhuǎn)化為了相對(duì)簡(jiǎn)單的紋理搜索與遷移,使得超分辨率結(jié)果在視覺效果上有了顯著的提升。
Landmark 模型 [14] 通過圖像檢索技術(shù),從網(wǎng)絡(luò)上爬取與輸入圖像相似的高分辨率圖像,再進(jìn)一步通過圖像配準(zhǔn)操作,最終合成得到對(duì)應(yīng)的超分辨率結(jié)果,其算法流程如圖10所示。
圖10:Landmark 模型的算法流程圖 [14]
CrossNet 模型 [15] 進(jìn)一步優(yōu)化上述圖像配準(zhǔn)過程,提出了基于光流估計(jì)的模型結(jié)構(gòu)。如圖9所示,該模型通過估計(jì)輸入低分辨率圖像與參考圖像之間的光流來對(duì)超分辨率圖像進(jìn)行重建。最終結(jié)果的優(yōu)劣很大程度上依賴于光流計(jì)算的準(zhǔn)確與否,而這要求輸入的低分辨率圖像與參考圖像在視角上不能存在很大的偏差,大大限制了上述模型的適用性。
圖11:CrossNet 模型的光流估計(jì)與圖像編解碼結(jié)構(gòu) [15]
針對(duì)上述問題,最近發(fā)表的 SRNTT 模型 [16] 提出了基于圖像塊的全局搜索與遷移模塊,取得了非常不錯(cuò)的結(jié)果。該模型通過在不同尺度上對(duì)輸入低分辨率圖像與高分辨率參考圖像中的相似圖像塊進(jìn)行全局的搜索與遷移,上述過程可以很好地通過高分辨率的參考圖像中的高頻紋理對(duì)輸入低分辨率圖像進(jìn)行表達(dá),進(jìn)而得到非常真實(shí)的超分辨率結(jié)果。
圖像超分辨率技術(shù)與 Microsoft 365
上文中提到的現(xiàn)有圖像超分辨率技術(shù)在實(shí)際應(yīng)用中仍存在較大的問題,特別是在面對(duì)分辨率較小的輸入圖像時(shí)(如小于200x200的圖像),其得到的結(jié)果很難令人滿意。另一方面,對(duì)于用戶日常從網(wǎng)絡(luò)上收集得到的圖像素材,低分辨率的插圖是十分常見的。直接通過上述算法得到的結(jié)果,其圖像質(zhì)量通常難以被用戶所接受,并不能在實(shí)際的生產(chǎn)場(chǎng)景中帶來很好的用戶體驗(yàn)。
微軟亞洲研究院針對(duì)這一問題提出了一套全新的圖像超分辨率解決方案,在技術(shù)上全面領(lǐng)先的同時(shí),該科研成果還將進(jìn)一步集成進(jìn)
Microsoft 365 中 PowerPoint 產(chǎn)品的
Design Ideas 模塊中,該模塊通過人工智能技術(shù),為用戶提供各種在幻燈片制作過程中的建議與幫助,提升用戶幻燈片制作的效率與最終成品的質(zhì)量。如圖12所示,當(dāng)用戶插入一張低分辨率的圖像時(shí),會(huì)自動(dòng)觸發(fā) Design Ideas 模塊,一旦用戶確認(rèn)使用圖像超分辨率技術(shù)進(jìn)行圖像增強(qiáng),原始的低分辨率圖像將立即被一張高分辨率的圖像所替代,整個(gè)過程耗時(shí)極低,實(shí)際效果卻有著很大的提升。
圖12:通過 PowerPoint 中的 Design Ideas 模塊提升用戶的圖像質(zhì)量
(上:用戶插入的低分辨率圖像放大結(jié)果,下:超分辨率后圖像放大結(jié)果)
很快,Microsoft 365 的用戶就可以體驗(yàn)到這一新功能,背后的相關(guān)技術(shù)論文已經(jīng)被 CVPR 2020 收錄,請(qǐng)大家關(guān)注我們的后續(xù)文章,會(huì)為大家一一揭曉。
總結(jié)