【文本图像超分辨】Scene Text Image Super-Resolution in the Wild
引言
這是一篇最新發(fā)出來的論文,看樣子要投NIPS2020,這個(gè)論文可以看作我以前介紹過的TextSR的升級(jí)版,兩個(gè)作者都是同一個(gè)人。這篇論文的主要想法就是提出一個(gè)專門用來進(jìn)行文本超分辨的數(shù)據(jù)集,并且提出了一個(gè)專門用來進(jìn)行文本超分辨的網(wǎng)絡(luò)。
Scene Text Image Super-Resolution in the Wild
摘要
分辨率的文本圖像通常出現(xiàn)在自然場(chǎng)景中,如手機(jī)捕獲的文檔。識(shí)別低分辨率文本圖像具有挑戰(zhàn)性,因?yàn)樗鼈儊G失了詳細(xì)的內(nèi)容信息,導(dǎo)致識(shí)別精度差。一個(gè)直觀的解決方案是引入超分辨率(SR)技術(shù)作為預(yù)處理。然而,以往的單圖像超分辨率(SISR)方法都是在合成的低分辨率圖像(如雙三次下采樣)上訓(xùn)練的,這種方法簡(jiǎn)單,不適合于真實(shí)的低分辨率文本識(shí)別。為此,我們提出了一個(gè)真實(shí)的場(chǎng)景文本SR數(shù)據(jù)集,稱為TextZoom。它包含一對(duì)真實(shí)的低分辨率和高分辨率圖像,這些圖像由野外不同焦距的相機(jī)拍攝。它比合成數(shù)據(jù)更真實(shí)、更具挑戰(zhàn)性,如圖1所示。我們認(rèn)為提高場(chǎng)景文本SR的識(shí)別精度是其最終目標(biāo)。為此,我們開發(fā)了一種新的文本超分辨率網(wǎng)絡(luò)TSRN,它具有三個(gè)新的模塊。(1) 提出了一種基于序列殘差塊的文本圖像序列信息提取方法。(2) 設(shè)計(jì)了一種邊界感知損失來銳化字符邊界。(3) 提出了一種中心對(duì)準(zhǔn)模塊來解決文本縮放中的對(duì)準(zhǔn)問題。在TextZoom上的大量實(shí)驗(yàn)表明,與合成SR數(shù)據(jù)相比,TSRN大大提高了CRNN的13%以上,ASTER和MORAN的9.0%左右。此外,我們的TSRN在提高文本縮放中LR圖像的識(shí)別精度方面明顯優(yōu)于7種最先進(jìn)的SR方法。例如,它在ASTER和CRNN的識(shí)別精度上分別比LapSRN高5%和8%。我們的結(jié)果表明,低分辨率的文本識(shí)別在野外還遠(yuǎn)未得到解決,因此需要更多的研究工作。
動(dòng)機(jī)
貢獻(xiàn)
TextZoom數(shù)據(jù)集
我們提出的數(shù)據(jù)集TextZoom來自兩個(gè)最先進(jìn)的SISR數(shù)據(jù)集:RealSR和SRRAW。我們的數(shù)據(jù)集中只有一些曲線文本圖像。對(duì)于每對(duì)LR-HR圖像,我們提供區(qū)分大小寫的字符串(包括標(biāo)點(diǎn)符號(hào))、邊框類型和原始焦距的注釋。在相同的高度下,焦距越小的圖像越模糊。考慮到這一點(diǎn),我們很將數(shù)據(jù)集分為三個(gè)子集。
超分辨網(wǎng)絡(luò)模型
本節(jié)中,我們?cè)敿?xì)介紹了我們提出的方法TSRN。首先,我們簡(jiǎn)要介紹了我們的模塊。然后我們介紹了所提出的序列殘差塊。然后,介紹了我們的中心對(duì)準(zhǔn)模塊。最后,我們引入一個(gè)新的梯度輪廓損失來銳化文本邊界。
我們的基線是SRResNet。我們主要對(duì)SRResNet的結(jié)構(gòu)做了兩個(gè)修改:1)在網(wǎng)絡(luò)前增加一個(gè)中心對(duì)齊模塊 2)用提出的序列剩余塊(srb)替換原始基本塊。在這項(xiàng)工作中,我們將二值遮罩與RGB影像串連作為我們的輸入。二值掩模是通過計(jì)算圖像的平均灰度來生成的。訓(xùn)練過程中,首先由中心對(duì)準(zhǔn)模塊對(duì)輸入進(jìn)行校正。然后利用CNN層從校正后的圖像中提取淺層特征。疊加5個(gè)srb,提取深度和順序相關(guān)特征,并按照ResNet[13]進(jìn)行快捷連接。SR圖像最終由上采樣塊和CNN生成。我們還設(shè)計(jì)了一個(gè)梯度先驗(yàn)損失(LGP)來增強(qiáng)字符的形狀邊界。網(wǎng)絡(luò)的輸出由MSELoss(L2)和我們提出的梯度剖面損失(LGP)來監(jiān)督。
Sequential Residual Block
以往最先進(jìn)的SR方法主要追求PSNR和SSIM的更好性能。傳統(tǒng)的SISR只關(guān)心紋理的再恢復(fù),忽略上下文信息,而文本圖像具有很強(qiáng)的序列性。我們的最終目標(biāo)是訓(xùn)練一個(gè)能夠重建文本圖像上下文信息的SR網(wǎng)絡(luò)。首先,利用CNN進(jìn)行特征提取。然后排列并調(diào)整特征地圖的大小,因?yàn)樗轿谋拘锌梢跃幋a成序列。然后BLSTM可以傳播誤差差分,并將特征映射轉(zhuǎn)化為特征序列,并將其反饋給卷積層。為了使傾斜文本圖像的序列相關(guān)魯棒性,我們從水平和垂直兩個(gè)方向引入BLSTM。BLSTM以水平卷積和垂直卷積特征作為序列輸入,在隱藏層中反復(fù)更新其內(nèi)部狀態(tài)。
Central Alignment Module
錯(cuò)位會(huì)導(dǎo)致像素對(duì)像素的丟失,如l1和l2會(huì)產(chǎn)生明顯的偽影和雙陰影。這主要是由于訓(xùn)練數(shù)據(jù)中像素的錯(cuò)位。LR圖像中的一些文本像素空間所對(duì)應(yīng)的是HR圖像背景像素,網(wǎng)絡(luò)可能會(huì)學(xué)習(xí)錯(cuò)誤的像素對(duì)應(yīng)信息。因此,我們引入STN作為我們的中心對(duì)準(zhǔn)模塊。STN是一種能夠?qū)D像進(jìn)行端到端校正和學(xué)習(xí)的空間變換網(wǎng)絡(luò)。由于大部分文本區(qū)域的錯(cuò)位都是水平或垂直平移,所以我們采用仿射變換作為變換操作。一旦LR圖像中的文本區(qū)域與中心相鄰對(duì)齊,像素級(jí)的損失將使性能更好,并且可以消除偽影。
Gradient Profile Loss
已經(jīng)有人提出了梯度輪廓先驗(yàn)(GPP)算法,以在SISR任務(wù)中產(chǎn)生更尖銳的邊緣。隨后提出了梯度場(chǎng)的變換方法。該方法將梯度輪廓曲線按一定比例進(jìn)行壓縮,并將圖像轉(zhuǎn)換為更清晰的圖像。這種方法是在深度學(xué)習(xí)時(shí)代之前提出的,因此它只會(huì)使梯度場(chǎng)的曲線更清晰,而不需要監(jiān)督。
由于我們有一個(gè)成對(duì)的文本超分辨率數(shù)據(jù)集,我們可以使用HR圖像的梯度場(chǎng)作為ground truth。通常,文本圖像只包含兩種顏色:字符和背景。這意味著文本圖像中不存在復(fù)雜的紋理,我們只需要注意字符和背景之間的邊界。因此,更好的圖像質(zhì)量意味著更清晰的邊界,而不是平滑的字符。當(dāng)背景不是純色時(shí),梯度場(chǎng)有時(shí)并不完全是背景和字符之間的邊界。但大多數(shù)樣例都能達(dá)到我們的目的,對(duì)我們的訓(xùn)練很有用。
具有兩個(gè)優(yōu)點(diǎn):(1)梯度場(chǎng)生動(dòng)地表現(xiàn)了文本圖像的特征:文本和背景。(2) LR圖像具有較寬的梯度場(chǎng)曲線,而HR圖像則具有較窄的梯度場(chǎng)曲線。通過數(shù)學(xué)計(jì)算可以方便地生成梯度場(chǎng)曲線。這確保了一個(gè)保密的監(jiān)督。
LGP的可視化演示如上圖所示。利用HR圖像的梯度場(chǎng),我們可以將梯度剖面曲線壓縮為較薄的曲線,而無需復(fù)雜的數(shù)學(xué)公式。
實(shí)驗(yàn)
在訓(xùn)練期間,我們將L2loss的權(quán)衡權(quán)重設(shè)置為1和LGP設(shè)為1e-4。我們使用動(dòng)量項(xiàng)為0.9的Adam優(yōu)化器。在評(píng)估識(shí)別精度時(shí),我們使用ASTER的官方pytorch版本代碼。在補(bǔ)充材料中,我們使用了官方的pytorch代碼和發(fā)布的crnn和MORAN模型。所有的SR模型都由500個(gè)epoch和4個(gè)NVIDIA GTX 1080ti GPU訓(xùn)練。批量大小根據(jù)原稿的設(shè)置而調(diào)整。
傳統(tǒng)的單輸入單輸出(SISR)任務(wù)是通過雙三次插值直接下采樣HR圖像生成相應(yīng)的LR圖像。為了說明真實(shí)LR相對(duì)于合成LR的優(yōu)越性,我們?cè)陔p三次下采樣LR圖像和真實(shí)LR圖像上訓(xùn)練我們的模型以顯示性能。
我們選擇SRResNet、LapSRN和我們提出的TSRN方法,分別在2X模型的合成LR和真實(shí)LR數(shù)據(jù)集上訓(xùn)練它們。我們總共訓(xùn)練了6個(gè)模型,并在我們提出的TextZoom子集上對(duì)它們進(jìn)行了評(píng)估。從表2可以看出,在真實(shí)LR(TextZoom)數(shù)據(jù)集上訓(xùn)練的三種方法在精度上明顯優(yōu)于在合成LR上訓(xùn)練的模型。對(duì)于我們的TSRN,在真實(shí)LR上訓(xùn)練的模型在ASTER和MORAN上可以超過合成LR近9.0%,在CRNN上可以超過合成LR近14.0%。
為了研究TSRN中各個(gè)組成部分的作用,我們逐步修改網(wǎng)絡(luò)的結(jié)構(gòu),并比較它們之間的差異,以建立一個(gè)最佳的網(wǎng)絡(luò)。為了簡(jiǎn)潔起見,我們只比較ASTER[41]的準(zhǔn)確性。
我們可以發(fā)現(xiàn)所提出的梯度剖面損失可以通過0.5%. 雖然增加很小,但是視覺效果更好(如下圖)。有了這個(gè)損失,一些扭曲形狀的字符會(huì)更顯式,如字符“e”“s”“f”。字符之間的邊界可以被計(jì)算出來
總結(jié)
以上是生活随笔為你收集整理的【文本图像超分辨】Scene Text Image Super-Resolution in the Wild的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VS2017启动速度优化方法
- 下一篇: 雄安新区 行政范围经纬度坐标