當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【文本图像超分辨】Scene Text Image Super-Resolution in the Wild

發(fā)布時(shí)間：2024/1/1 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了【文本图像超分辨】Scene Text Image Super-Resolution in the Wild 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

引言

這是一篇最新發(fā)出來的論文，看樣子要投NIPS2020，這個(gè)論文可以看作我以前介紹過的TextSR的升級(jí)版，兩個(gè)作者都是同一個(gè)人。這篇論文的主要想法就是提出一個(gè)專門用來進(jìn)行文本超分辨的數(shù)據(jù)集，并且提出了一個(gè)專門用來進(jìn)行文本超分辨的網(wǎng)絡(luò)。

Scene Text Image Super-Resolution in the Wild

摘要

分辨率的文本圖像通常出現(xiàn)在自然場(chǎng)景中，如手機(jī)捕獲的文檔。識(shí)別低分辨率文本圖像具有挑戰(zhàn)性，因?yàn)樗鼈儊G失了詳細(xì)的內(nèi)容信息，導(dǎo)致識(shí)別精度差。一個(gè)直觀的解決方案是引入超分辨率（SR）技術(shù)作為預(yù)處理。然而，以往的單圖像超分辨率（SISR）方法都是在合成的低分辨率圖像（如雙三次下采樣）上訓(xùn)練的，這種方法簡(jiǎn)單，不適合于真實(shí)的低分辨率文本識(shí)別。為此，我們提出了一個(gè)真實(shí)的場(chǎng)景文本SR數(shù)據(jù)集，稱為TextZoom。它包含一對(duì)真實(shí)的低分辨率和高分辨率圖像，這些圖像由野外不同焦距的相機(jī)拍攝。它比合成數(shù)據(jù)更真實(shí)、更具挑戰(zhàn)性，如圖1所示。我們認(rèn)為提高場(chǎng)景文本SR的識(shí)別精度是其最終目標(biāo)。為此，我們開發(fā)了一種新的文本超分辨率網(wǎng)絡(luò)TSRN，它具有三個(gè)新的模塊。（1）提出了一種基于序列殘差塊的文本圖像序列信息提取方法。（2）設(shè)計(jì)了一種邊界感知損失來銳化字符邊界。（3）提出了一種中心對(duì)準(zhǔn)模塊來解決文本縮放中的對(duì)準(zhǔn)問題。在TextZoom上的大量實(shí)驗(yàn)表明，與合成SR數(shù)據(jù)相比，TSRN大大提高了CRNN的13%以上，ASTER和MORAN的9.0%左右。此外，我們的TSRN在提高文本縮放中LR圖像的識(shí)別精度方面明顯優(yōu)于7種最先進(jìn)的SR方法。例如，它在ASTER和CRNN的識(shí)別精度上分別比LapSRN高5%和8%。我們的結(jié)果表明，低分辨率的文本識(shí)別在野外還遠(yuǎn)未得到解決，因此需要更多的研究工作。

動(dòng)機(jī)

現(xiàn)代文本識(shí)別技術(shù)已經(jīng)在純文本圖像上取得了令人印象深刻的效果。然而，在識(shí)別低分辨率文本圖像時(shí)，它們的性能急劇下降[1]。識(shí)別LR文本的主要困難在于光學(xué)退化模糊了字符的形狀。因此，將SR方法引入到識(shí)別前的預(yù)處理過程中是很有前途的。令我們驚訝的是，沒有一個(gè)真正的數(shù)據(jù)集和相應(yīng)的方法關(guān)注場(chǎng)景文本SR。

以前的工作它們只訓(xùn)練下采樣圖像，學(xué)習(xí)回歸簡(jiǎn)單的雙三次（或雙線性）插值映射函數(shù)。由于所有的LR圖像都是由一個(gè)簡(jiǎn)單的下采樣公式生成的，所以不能很好地推廣到真實(shí)的文本圖像

真實(shí)的模糊場(chǎng)景文本圖像在退化形式上更為多樣。場(chǎng)景文本具有任意形狀、分布照明和不同背景。場(chǎng)景文本圖像的超分辨率更具挑戰(zhàn)性。

為了重建低分辨率的文本圖像，我們提出了一種面向文本的端到端方法。傳統(tǒng)的SISR方法只注重對(duì)文本細(xì)節(jié)的重構(gòu)，只滿足人的視覺感知。然而，場(chǎng)景文本SR是一個(gè)相當(dāng)特殊的任務(wù)，因?yàn)樗呒?jí)文本內(nèi)容。前后字符之間存在著信息關(guān)系。

貢獻(xiàn)

我們的數(shù)據(jù)集有三個(gè)主要優(yōu)點(diǎn)。（1）這個(gè)數(shù)據(jù)集注釋很好。我們提供文本圖像的方向、文本內(nèi)容和原始焦距。（2）該數(shù)據(jù)集包含了大量來自不同自然場(chǎng)景的文本，包括街景、圖書館、商店、汽車內(nèi)飾等。（3）數(shù)據(jù)集按難度仔細(xì)地分成三個(gè)子集。在TextZoom上的實(shí)驗(yàn)表明，與合成SR數(shù)據(jù)相比，TSRN大大提高了CRNN的識(shí)別精度13%以上。

通過對(duì)基于合成LR圖像和基于合成LR圖像訓(xùn)練的模型的比較和分析，證明了本文提出的數(shù)據(jù)集TextZoom的優(yōu)越性。從不同角度論證了場(chǎng)景文本SR的必要性。

我們提出了一個(gè)新的文本超分辨率網(wǎng)絡(luò)，它包含三個(gè)新的模塊。通過在TextZoom上進(jìn)行培訓(xùn)和測(cè)試以進(jìn)行公平比較，它明顯超過了7種有代表性的SR方法

TextZoom數(shù)據(jù)集

我們提出的數(shù)據(jù)集TextZoom來自兩個(gè)最先進(jìn)的SISR數(shù)據(jù)集：RealSR和SRRAW。我們的數(shù)據(jù)集中只有一些曲線文本圖像。對(duì)于每對(duì)LR-HR圖像，我們提供區(qū)分大小寫的字符串（包括標(biāo)點(diǎn)符號(hào)）、邊框類型和原始焦距的注釋。在相同的高度下，焦距越小的圖像越模糊。考慮到這一點(diǎn)，我們很將數(shù)據(jù)集分為三個(gè)子集。

超分辨網(wǎng)絡(luò)模型

本節(jié)中，我們?cè)敿?xì)介紹了我們提出的方法TSRN。首先，我們簡(jiǎn)要介紹了我們的模塊。然后我們介紹了所提出的序列殘差塊。然后，介紹了我們的中心對(duì)準(zhǔn)模塊。最后，我們引入一個(gè)新的梯度輪廓損失來銳化文本邊界。

我們的基線是SRResNet。我們主要對(duì)SRResNet的結(jié)構(gòu)做了兩個(gè)修改：1）在網(wǎng)絡(luò)前增加一個(gè)中心對(duì)齊模塊 2）用提出的序列剩余塊（srb）替換原始基本塊。在這項(xiàng)工作中，我們將二值遮罩與RGB影像串連作為我們的輸入。二值掩模是通過計(jì)算圖像的平均灰度來生成的。訓(xùn)練過程中，首先由中心對(duì)準(zhǔn)模塊對(duì)輸入進(jìn)行校正。然后利用CNN層從校正后的圖像中提取淺層特征。疊加5個(gè)srb，提取深度和順序相關(guān)特征，并按照ResNet[13]進(jìn)行快捷連接。SR圖像最終由上采樣塊和CNN生成。我們還設(shè)計(jì)了一個(gè)梯度先驗(yàn)損失（LGP）來增強(qiáng)字符的形狀邊界。網(wǎng)絡(luò)的輸出由MSELoss（L2）和我們提出的梯度剖面損失（LGP）來監(jiān)督。

Sequential Residual Block

以往最先進(jìn)的SR方法主要追求PSNR和SSIM的更好性能。傳統(tǒng)的SISR只關(guān)心紋理的再恢復(fù)，忽略上下文信息，而文本圖像具有很強(qiáng)的序列性。我們的最終目標(biāo)是訓(xùn)練一個(gè)能夠重建文本圖像上下文信息的SR網(wǎng)絡(luò)。首先，利用CNN進(jìn)行特征提取。然后排列并調(diào)整特征地圖的大小，因?yàn)樗轿谋拘锌梢跃幋a成序列。然后BLSTM可以傳播誤差差分，并將特征映射轉(zhuǎn)化為特征序列，并將其反饋給卷積層。為了使傾斜文本圖像的序列相關(guān)魯棒性，我們從水平和垂直兩個(gè)方向引入BLSTM。BLSTM以水平卷積和垂直卷積特征作為序列輸入，在隱藏層中反復(fù)更新其內(nèi)部狀態(tài)。

Central Alignment Module

錯(cuò)位會(huì)導(dǎo)致像素對(duì)像素的丟失，如l1和l2會(huì)產(chǎn)生明顯的偽影和雙陰影。這主要是由于訓(xùn)練數(shù)據(jù)中像素的錯(cuò)位。LR圖像中的一些文本像素空間所對(duì)應(yīng)的是HR圖像背景像素，網(wǎng)絡(luò)可能會(huì)學(xué)習(xí)錯(cuò)誤的像素對(duì)應(yīng)信息。因此，我們引入STN作為我們的中心對(duì)準(zhǔn)模塊。STN是一種能夠?qū)D像進(jìn)行端到端校正和學(xué)習(xí)的空間變換網(wǎng)絡(luò)。由于大部分文本區(qū)域的錯(cuò)位都是水平或垂直平移，所以我們采用仿射變換作為變換操作。一旦LR圖像中的文本區(qū)域與中心相鄰對(duì)齊，像素級(jí)的損失將使性能更好，并且可以消除偽影。

Gradient Profile Loss

已經(jīng)有人提出了梯度輪廓先驗(yàn)（GPP）算法，以在SISR任務(wù)中產(chǎn)生更尖銳的邊緣。隨后提出了梯度場(chǎng)的變換方法。該方法將梯度輪廓曲線按一定比例進(jìn)行壓縮，并將圖像轉(zhuǎn)換為更清晰的圖像。這種方法是在深度學(xué)習(xí)時(shí)代之前提出的，因此它只會(huì)使梯度場(chǎng)的曲線更清晰，而不需要監(jiān)督。
由于我們有一個(gè)成對(duì)的文本超分辨率數(shù)據(jù)集，我們可以使用HR圖像的梯度場(chǎng)作為ground truth。通常，文本圖像只包含兩種顏色：字符和背景。這意味著文本圖像中不存在復(fù)雜的紋理，我們只需要注意字符和背景之間的邊界。因此，更好的圖像質(zhì)量意味著更清晰的邊界，而不是平滑的字符。當(dāng)背景不是純色時(shí)，梯度場(chǎng)有時(shí)并不完全是背景和字符之間的邊界。但大多數(shù)樣例都能達(dá)到我們的目的，對(duì)我們的訓(xùn)練很有用。

具有兩個(gè)優(yōu)點(diǎn)：（1）梯度場(chǎng)生動(dòng)地表現(xiàn)了文本圖像的特征：文本和背景。（2） LR圖像具有較寬的梯度場(chǎng)曲線，而HR圖像則具有較窄的梯度場(chǎng)曲線。通過數(shù)學(xué)計(jì)算可以方便地生成梯度場(chǎng)曲線。這確保了一個(gè)保密的監(jiān)督。
LGP的可視化演示如上圖所示。利用HR圖像的梯度場(chǎng)，我們可以將梯度剖面曲線壓縮為較薄的曲線，而無需復(fù)雜的數(shù)學(xué)公式。

實(shí)驗(yàn)

在訓(xùn)練期間，我們將L2loss的權(quán)衡權(quán)重設(shè)置為1和LGP設(shè)為1e-4。我們使用動(dòng)量項(xiàng)為0.9的Adam優(yōu)化器。在評(píng)估識(shí)別精度時(shí)，我們使用ASTER的官方pytorch版本代碼。在補(bǔ)充材料中，我們使用了官方的pytorch代碼和發(fā)布的crnn和MORAN模型。所有的SR模型都由500個(gè)epoch和4個(gè)NVIDIA GTX 1080ti GPU訓(xùn)練。批量大小根據(jù)原稿的設(shè)置而調(diào)整。
傳統(tǒng)的單輸入單輸出（SISR）任務(wù)是通過雙三次插值直接下采樣HR圖像生成相應(yīng)的LR圖像。為了說明真實(shí)LR相對(duì)于合成LR的優(yōu)越性，我們?cè)陔p三次下采樣LR圖像和真實(shí)LR圖像上訓(xùn)練我們的模型以顯示性能。

我們選擇SRResNet、LapSRN和我們提出的TSRN方法，分別在2X模型的合成LR和真實(shí)LR數(shù)據(jù)集上訓(xùn)練它們。我們總共訓(xùn)練了6個(gè)模型，并在我們提出的TextZoom子集上對(duì)它們進(jìn)行了評(píng)估。從表2可以看出，在真實(shí)LR（TextZoom）數(shù)據(jù)集上訓(xùn)練的三種方法在精度上明顯優(yōu)于在合成LR上訓(xùn)練的模型。對(duì)于我們的TSRN，在真實(shí)LR上訓(xùn)練的模型在ASTER和MORAN上可以超過合成LR近9.0%，在CRNN上可以超過合成LR近14.0%。
為了研究TSRN中各個(gè)組成部分的作用，我們逐步修改網(wǎng)絡(luò)的結(jié)構(gòu)，并比較它們之間的差異，以建立一個(gè)最佳的網(wǎng)絡(luò)。為了簡(jiǎn)潔起見，我們只比較ASTER[41]的準(zhǔn)確性。

我們可以發(fā)現(xiàn)所提出的梯度剖面損失可以通過0.5%. 雖然增加很小，但是視覺效果更好（如下圖）。有了這個(gè)損失，一些扭曲形狀的字符會(huì)更顯式，如字符“e”“s”“f”。字符之間的邊界可以被計(jì)算出來

總結(jié)

以上是生活随笔為你收集整理的【文本图像超分辨】Scene Text Image Super-Resolution in the Wild的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。