當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文翻译-ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

發(fā)布時(shí)間：2023/12/14 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了论文翻译-ASTER: An Attentional Scene Text Recognizer with Flexible Rectification 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文翻譯-ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

原文地址: https://ieeexplore.ieee.org/iel7/34/4359286/08395027.pdf
【推薦】相關(guān)閱讀資料下載：
鏈接：https://pan.baidu.com/s/1Yon8qf2Lqb31SaoruZgkAA
提取碼：h1ob
【注】：翻譯僅供參考，準(zhǔn)確含義和表達(dá)參考英文原文

ASTER：一個(gè)具有靈活矯正功能的注意型場景文本識別器

摘要

場景文本識別的一個(gè)挑戰(zhàn)性方面是處理有扭曲或不規(guī)則布局的文本。特別是，透視文字和彎曲的文字在自然場景中很常見，很難識別。在這項(xiàng)工作中，我們引入了ASTER，這是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型，包括一個(gè)矯正網(wǎng)絡(luò)和一個(gè)識別網(wǎng)絡(luò)。矯正網(wǎng)絡(luò)自適應(yīng)地將輸入的圖像轉(zhuǎn)換成新的圖像，矯正其中的文字。它由一個(gè)靈活的薄板花鍵轉(zhuǎn)換提供動(dòng)力，可以處理各種文本的不規(guī)則性，并且在沒有人類注釋的情況下進(jìn)行訓(xùn)練。識別網(wǎng)絡(luò)是一個(gè)注意序列到序列的模型，它直接從矯正后的圖像中預(yù)測出一個(gè)字符序列。整個(gè)模型的訓(xùn)練是自始至終的，只需要圖像和它們的真實(shí)文本。通過廣泛的實(shí)驗(yàn)，我們驗(yàn)證了整頓的有效性，并證明了ASTER的最先進(jìn)的識別性能。此外，我們證明了ASTER在端到端識別系統(tǒng)中是一個(gè)強(qiáng)大的組件，因?yàn)樗軌蛟鰪?qiáng)檢測器的能力。
Index Terms–場景文本識別，薄板樣條，圖像轉(zhuǎn)換，序列對序列學(xué)習(xí)

1 簡介

場景文本識別由于其在廣泛的應(yīng)用中的重要性，近年來引起了學(xué)術(shù)界和工業(yè)界的極大興趣。盡管專門用于文檔文本的光學(xué)字符識別（OCR）系統(tǒng)已經(jīng)很成熟，但場景文本識別仍然是一個(gè)具有挑戰(zhàn)性的問題。背景、外觀和布局的巨大變化帶來了巨大的挑戰(zhàn)，傳統(tǒng)的OCR方法無法有效地處理這些問題。
場景文本識別的最新進(jìn)展是由基于深度學(xué)習(xí)的識別模型的成功推動(dòng)的。其中有使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）識別文字的方法，使用CNN對單詞進(jìn)行分類的方法[24]，[26]，以及使用CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）組合識別字符序列的方法[54]。盡管這些方法取得了成功，但它們并沒有明確解決不規(guī)則文本的問題，即不是水平和正面的文本，有彎曲的布局，等等。不規(guī)則文本的實(shí)例經(jīng)常出現(xiàn)在自然場景中。如圖1所示，典型的情況包括定向文本、透視文本[49]和弧形文本。在設(shè)計(jì)上沒有對這種不規(guī)則性的不變性，以前的方法在識別這種文本實(shí)例時(shí)經(jīng)常會(huì)遇到困難。

圖1.不規(guī)則文本的例子。

這項(xiàng)工作介紹了ASTER，它代表了具有靈活矯正功能的注意型場景文本識別器，用于場景文本識別。ASTER通過一個(gè)明確的矯正機(jī)制來解決不規(guī)則文本的問題。如圖2所示，該模型由兩部分組成：整頓網(wǎng)絡(luò)和識別網(wǎng)絡(luò)。給定一個(gè)輸入圖像，整流網(wǎng)絡(luò)對該圖像進(jìn)行變換，以矯正其中的文字。該變換是參數(shù)化的薄板樣條[8]（TPS），這是一個(gè)非常靈活的變換，可以處理各種文字的不規(guī)則性。
在推理過程中，整頓網(wǎng)絡(luò)首先從圖像中預(yù)測TPS參數(shù)，然后將其應(yīng)用于變換?；赱28]提出的空間變換器網(wǎng)絡(luò)（STN）框架，整頓網(wǎng)絡(luò)可以純粹由識別網(wǎng)絡(luò)反向傳播的梯度來訓(xùn)練，因此不需要人工注釋。
識別網(wǎng)絡(luò)以注意序列對序列的方式從整頓后的圖像中預(yù)測出一個(gè)字符序列。在[3]、[13]中提出的注意力機(jī)制的基礎(chǔ)上，識別網(wǎng)絡(luò)有效地將字符檢測、字符識別和語言建模封裝在一個(gè)模型中，實(shí)現(xiàn)了準(zhǔn)確的識別。此外，我們將傳統(tǒng)的單向解碼器擴(kuò)展為雙向的。雙向解碼器由兩個(gè)解碼方向相反的解碼器組成。它合并了兩個(gè)解碼器的輸出，利用了兩個(gè)方向上的依賴關(guān)系。
通過在一些標(biāo)準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)，我們證明了ASTER在規(guī)則和不規(guī)則文本上的卓越表現(xiàn)。此外，當(dāng)與文本檢測器一起使用時(shí)，ASTER顯示了通過過濾和細(xì)化其檢測框來增強(qiáng)文本檢測器的能力。特別是，ASTER使一個(gè)水平文本檢測器能夠檢測出有方向性的文本。這些優(yōu)點(diǎn)使ASTER成為端到端文本識別系統(tǒng)的強(qiáng)大組件。

圖2.擬議模型的概述。虛線表示梯度的流動(dòng)。

綜上所述，本文的貢獻(xiàn)有三個(gè)方面。首先，我們用一個(gè)明確的矯正機(jī)制來解決不規(guī)則文本的識別問題，該機(jī)制在沒有額外注釋的情況下顯著提高了識別性能。第二，我們?yōu)閳鼍拔谋咀R別問題引入了注意力序列-序列模型，并以雙向解碼器對其進(jìn)行了擴(kuò)展。第三，我們提出了一種利用ASTER在文本整頓和識別方面的能力來增強(qiáng)文本檢測器的方法。
本文通過三個(gè)主要的擴(kuò)展超越了其會(huì)議版本[55]。1）我們通過修改整流網(wǎng)絡(luò)結(jié)構(gòu)在整流性能上取得了突破。首先，不同分辨率的圖像被用于控制點(diǎn)的預(yù)測和采樣，避免了原始STN框架中分辨率下降的問題。其次，我們放棄了定位網(wǎng)絡(luò)中的非線性激活，保留了反向傳播梯度，從而加快了訓(xùn)練期間的收斂。因此，我們觀察到在準(zhǔn)確性、矯正圖像質(zhì)量和對初始化的敏感性方面都有明顯的改善；2）我們將原來的識別解碼器擴(kuò)展為雙向的，以便利用兩個(gè)方向的依賴關(guān)系；3）我們探索ASTER在端到端文本識別中的應(yīng)用，并展示其優(yōu)勢。通過這些擴(kuò)展，ASTER在很大程度上超過了[55]，并顯示出更廣泛的適用性和優(yōu)勢。

2 相關(guān)的工作

2.1 文本識別

近年來發(fā)表了大量關(guān)于場景文本識別的文獻(xiàn)。全面的調(diào)查可以在[68], [72]中找到。
早期的工作主要是針對文檔文本。由于文檔通常有干凈的背景，所以經(jīng)常采用二值化方法[10]來分割字符。然而，當(dāng)應(yīng)用于場景文本時(shí)，這些方法無法處理文本外觀的巨大變化和自然圖像中的噪聲。
近幾十年來，一種普遍的方法是對單個(gè)字符進(jìn)行定位，并將其歸入單詞。在這一線工作中，許多人選擇過濾多余的字符建議集，并用分類器來識別它們。有代表性的提議提取方法包括最大穩(wěn)定極值區(qū)域（MSER）[43], [46], 極值區(qū)域（ER）[47], 以及筆畫寬度變換（SWT）[14], [65], [66]。這些方法利用了文本在紋理或形狀方面的特點(diǎn)。它們能有效地在有適度噪聲的圖像中定位字符。
還有一些人采取了基于學(xué)習(xí)的方法，使用滑動(dòng)窗口技術(shù)對字符進(jìn)行定位[35], [44], [45], [60], [61]。在這些方法中，局部區(qū)域被二進(jìn)制或多類別（每個(gè)類別是一個(gè)字母）分類器密集地分類，以獲得字符的位置和分?jǐn)?shù)。然后，進(jìn)行基于圖形的推理，從檢測到的字符中找到單詞。
隨著深度神經(jīng)網(wǎng)絡(luò)在各種計(jì)算機(jī)視覺任務(wù)中的成功[33], [50]，許多人開始采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行文字識別。一些方法使用卷積神經(jīng)網(wǎng)絡(luò)[33], [34]（CNNs）來定位和識別字符[29], [62], [70]。[62]創(chuàng)建了兩個(gè)CNN來分別定位和識別字符。[29]采用了類似的方法，但只用了一個(gè)CNN來同時(shí)執(zhí)行這兩項(xiàng)任務(wù)。其他方法則是整體性地識別文本。例如，Jaderberg等人[24]，[29]用一個(gè)90k級的CNN進(jìn)行文本識別，其中每個(gè)類別對應(yīng)一個(gè)英文單詞。
文本識別也可以被建模為一個(gè)結(jié)構(gòu)化學(xué)習(xí)問題。[25]提出構(gòu)建一個(gè)結(jié)構(gòu)化輸出的CNN用于無約束的文本識別。Su和Lu[56], [57]將文本識別建模為一個(gè)序列識別問題，并用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）來解決這個(gè)問題。在他們的努力下，[21], [54]將CNN和RNN整合起來用于文本識別。Wang等人[59]通過利用門控遞歸神經(jīng)網(wǎng)絡(luò)擴(kuò)展了這一工作思路。
我們的方法屬于結(jié)構(gòu)化學(xué)習(xí)的范疇。它是基于注意力序列到序列的學(xué)習(xí)模型[3], [13]。這樣的模型學(xué)習(xí)從輸入序列預(yù)測輸出序列，最初被提出用于機(jī)器翻譯和語音識別任務(wù)。本文的會(huì)議版本[55]是第一個(gè)與[36]并行的，在場景文本識別任務(wù)中探索此類模型的文章。這項(xiàng)工作通過雙向解碼器進(jìn)一步擴(kuò)展了[55]。

2.2 文本糾正

不規(guī)則文本的整頓以前曾針對文檔文本圖像進(jìn)行過研究[30], [40], [41]。這些工作基于形態(tài)學(xué)分析或注冊技術(shù)對文檔圖像進(jìn)行矯正（或扁平化），這些方法適用于包含多行文字的圖像。另一方面，場景文本通常以單個(gè)單詞的形式被識別，這些方法并不能很好地概括。
在場景文本方面，[49]對不規(guī)則文本問題進(jìn)行了研究，Phan等人提出了一種對透視文本失真的魯棒性識別方法。最近，Yang等人[64]用一個(gè)輔助的字符檢測模型和對齊損失來解決不規(guī)則文本問題，這有助于精確的字符定位。Bartz等人[4], [5]用一個(gè)集成的矯正識別網(wǎng)絡(luò)來解決這個(gè)問題。與[64]相比，我們的方法在概念上更簡單，因?yàn)樗恍枰鞔_的字符檢測。此外，與[64]和[11]相比，我們的方法不需要額外的字符級注釋。

2.3 文本檢測和端到端識別

文本檢測和端到端識別的問題都在非?；钴S的研究中。許多最近的文本檢測器是基于現(xiàn)代物體檢測或分割方法的。例如，TextBoxes[38]將SSD檢測器[39]適應(yīng)于文本檢測。EAST[71]使用FCN[53]進(jìn)行文本分割。這兩種方法都實(shí)現(xiàn)了快速和準(zhǔn)確的文本檢測。
一個(gè)常見的端到端識別系統(tǒng)包括一個(gè)檢測器和一個(gè)識別器，以一種連續(xù)的方式。以前的方法如Weinman等人[63]和Jaderberg等人[27]首先生成文本建議，然后用獨(dú)立的單詞識別模型識別它們。最近，一些方法試圖在一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)中整合檢測和識別。Deep TextSpotter[9]將一個(gè)基于FCN的檢測器和一個(gè)基于CTC的識別器結(jié)合到一個(gè)端到端的可訓(xùn)練框架中。同樣地，Li等人[37]整合了一個(gè)文本提議網(wǎng)絡(luò)和一個(gè)注意力序列識別網(wǎng)絡(luò)。
雖然本文的重點(diǎn)是文本識別，但我們表明ASTER有助于實(shí)現(xiàn)最先進(jìn)的端到端性能，即使沒有最強(qiáng)的檢測器。另外，我們還證明了ASTER可以通過其矯正機(jī)制加強(qiáng)檢測器。這些特性使ASTER成為端到端識別系統(tǒng)中一個(gè)有吸引力的識別器。

3 模型

建議的模型由兩部分組成，即文本矯正網(wǎng)絡(luò)和文本識別網(wǎng)絡(luò)。在下面的章節(jié)中，我們首先在第3.1節(jié)和第3.2節(jié)中分別描述這兩部分。然后，我們在第3.3節(jié)中描述訓(xùn)練策略。

3.1 整流網(wǎng)絡(luò)

整理網(wǎng)絡(luò)用預(yù)測的二維變換來校正輸入圖像。我們采用Thin-Plate-Spline[8]（TPS）作為變換。TPS在圖像變換和匹配方面有廣泛的應(yīng)用，例如[6]。與其他較簡單的二維變換相比，它更加靈活，例如仿射和投影。TPS在圖像上執(zhí)行非剛性變形，處理各種變形。圖3舉例說明了一些典型的整頓。特別是，TPS可以矯正透視和彎曲的文本，這是兩種典型的不規(guī)則文本類型。
整理網(wǎng)絡(luò)是基于空間變換器網(wǎng)絡(luò)[28]（STN）。STN的中心思想是將空間轉(zhuǎn)換建模為一個(gè)可學(xué)習(xí)的網(wǎng)絡(luò)層。圖4描述了整頓網(wǎng)絡(luò)的結(jié)構(gòu)。該網(wǎng)絡(luò)首先通過其定位網(wǎng)絡(luò)預(yù)測出一組控制點(diǎn)。然后，從控制點(diǎn)計(jì)算出一個(gè)TPS變換，并傳遞給網(wǎng)格生成器和采樣器以生成整流圖像Ir。由于控制點(diǎn)是從I中預(yù)測出來的，所以除了輸入圖像外，整流網(wǎng)絡(luò)不需要額外的輸入。

圖3.TPS變換可以糾正各種類型的不規(guī)則文本，包括但不限于松散的邊界a)、定向或透視變形(b)?和彎曲的文本(d)。

圖4.整流網(wǎng)絡(luò)的結(jié)構(gòu)。

3.1.1 本地化網(wǎng)絡(luò)

我們首先在圖5中說明TPS是如何整頓文字的。一個(gè)TPS變換是由兩組大小相同的控制點(diǎn)決定的，用K表示。輸出圖像上的控制點(diǎn)被放置在沿圖像上下邊界的固定位置，間距相等。因此，當(dāng)輸入圖像上的控制點(diǎn)沿上下文本邊緣預(yù)測時(shí)，所產(chǎn)生的TPS變換會(huì)輸出一個(gè)具有規(guī)則文本的整流圖像。
因此，文字矯正的問題可以歸結(jié)為預(yù)測輸入圖像上的控制點(diǎn)。預(yù)測是由卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行的。假設(shè)I和Ir上有K個(gè)控制點(diǎn)，它們的坐標(biāo)分別表示為 C’和C，分別表示。這里。 C =[c_1,…,c_K]∈R^(2×K)是K個(gè)控制點(diǎn)的串聯(lián)，其中 c_k=〖[x_k,y_k]〗^T是第k個(gè)點(diǎn)的x，y坐標(biāo)。同理。 C^’=[c_1’,…,c_k^’].

圖5.使用TPS轉(zhuǎn)換的文本整頓。交叉點(diǎn)是控制點(diǎn)。黃色箭頭代表變換T，連接一個(gè)點(diǎn)pi和其對應(yīng)的點(diǎn) p_i^’.

定位網(wǎng)絡(luò)的回歸 C’直接從Id進(jìn)行回歸，而Id是從I下采樣的。該網(wǎng)絡(luò)由幾個(gè)卷積層組成，在它們之間插入了最大集合層。輸出層是一個(gè)全連接的層，其輸出大小為2K。它的輸出向量被重塑為 C∈R^(2×K). C’和C的值是標(biāo)準(zhǔn)化的圖像坐標(biāo)，其中（0，0）是左上角，（1，1）是右下角。
我們將在后面進(jìn)一步說明，整流網(wǎng)絡(luò)中的所有模塊都是可分的。因此，在訓(xùn)練過程中，定位網(wǎng)絡(luò)完全由反向傳播梯度來訓(xùn)練，不需要對控制點(diǎn)進(jìn)行人工注釋。

3.1.2 網(wǎng)格生成器

網(wǎng)格生成器計(jì)算出一個(gè)變換，并將其應(yīng)用于Ir中的每個(gè)像素位置，在I上生成一個(gè)采樣網(wǎng)格P = {pi }。二維TPS變換的參數(shù)是一個(gè)2×（K+3）矩陣。

其中 u,v∈R^(1×K).給定一個(gè)二維點(diǎn)p = [xp, yp ]T，TPS通過線性投影p的提升矢量找到其對應(yīng)的點(diǎn)p’。

其中 ?? = r^2 log?是應(yīng)用于p和控制點(diǎn)cK之間的歐幾里得距離的徑向基核。TPS的系數(shù)是通過解決一個(gè)涉及C和C’之間的K個(gè)對應(yīng)關(guān)系的線性系統(tǒng)來找到的:

受制于以下邊界條件（Cx和Cy分別為C的x和y坐標(biāo)）。

以矩陣形式組合起來，線性系統(tǒng)表示為

其中 C ?∈R^(K×K)是一個(gè)方形矩陣，包括 (c_(i,j) ) ?=?(‖c_i-c_j ‖).
從方程2中，T有一個(gè)閉合形式的解。

注意，C是輸出圖像上預(yù)定的控制點(diǎn)，因此是一個(gè)常數(shù)。根據(jù)公式2， C ?和 ?C都是純粹從C派生出來的。因此，它們也是常數(shù)，只需要計(jì)算一次。

圖 6. 網(wǎng)格生成器的構(gòu)造。 concat 和 matmul 分別是矩陣連接和乘法運(yùn)算符。

TPS的求解和轉(zhuǎn)換過程可以很容易地被建模為一個(gè)神經(jīng)網(wǎng)絡(luò)模塊。圖6顯示了這個(gè)模塊的結(jié)構(gòu)。它將預(yù)測的控制點(diǎn) C’和矯正后圖像上的每個(gè)像素點(diǎn)p作為輸入和輸出 p’.模塊中使用的所有運(yùn)算符都是可微分的，可以在大多數(shù)主流的深度學(xué)習(xí)庫中找到。此外，給定一個(gè)具有一定分辨率的圖像，像素的位置是固定的。因此，圖6中從p到p ?的計(jì)算可以被緩存起來并重復(fù)用于相同分辨率的圖像。

3.1.3 采樣器

在整流網(wǎng)絡(luò)的輸出端，采樣器生成整流后的圖像。

采樣器通過插值計(jì)算出p的值，即通過插值計(jì)算出p的鄰居像素為 p’.由于 p’可能會(huì)落在圖像之外，所以在采樣之前要進(jìn)行數(shù)值剪裁，以限制圖像邊界內(nèi)的采樣點(diǎn)。采樣器是可微調(diào)的，也就是說，它可以將I上的梯度反向傳播到P。r這是通過可微分圖像采樣方法實(shí)現(xiàn)的。我們請讀者參考[28]以了解更多細(xì)節(jié)。

3.1.4 與STN[28]和RARE[55]的比較

與我們以前的工作[55]和最初的STN論文[28]相比，本文引入了兩項(xiàng)改進(jìn)。
與STN[28]不同，我們?yōu)槎ㄎ痪W(wǎng)絡(luò)和采樣器使用不同大小的圖像。定位網(wǎng)絡(luò)在較小的圖像上運(yùn)行，Id是I的降采樣版本，以減少預(yù)測所需的參數(shù)數(shù)量。同時(shí)，采樣器在原始圖像（或者類似地，原始圖像調(diào)整為高分辨率）上操作。由于整流網(wǎng)絡(luò)經(jīng)常對其輸入的圖像進(jìn)行裁剪，在高分辨率的圖像上采樣可以避免輸出分辨率的降低，因此可以保留Ir的圖像質(zhì)量。此外，本文還闡述了TPS在STN中的應(yīng)用。
與[55]不同的是，我們沒有限制 C’的值，在最后一個(gè)全連接層使用 tanh 激活函數(shù)。放棄非線性激活函數(shù)可能會(huì)導(dǎo)致訓(xùn)練期間更快的收斂，因?yàn)樘荻仍诜聪騻鞑テ陂g得到了很好的保留。如果沒有tanh，控制點(diǎn)可能會(huì)落在圖像邊界之外，因此在采樣器中進(jìn)行了數(shù)值剪裁，以確保有效采樣。我們根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn)，這個(gè)技巧大大改善了性能和對權(quán)重初始化的穩(wěn)定性。

3.2 識別網(wǎng)絡(luò)

文本識別網(wǎng)絡(luò)直接從矯正后的圖像中預(yù)測出一個(gè)字符序列。該網(wǎng)絡(luò)是可以進(jìn)行端到端訓(xùn)練的。它只用圖像和它們的真實(shí)文本注釋來訓(xùn)練。
最近的工作[54]證明了將文本識別建模為一個(gè)序列識別問題的有效性。該模型的核心是連接主義時(shí)間分類（CTC）方法[17]。CTC提供了一個(gè)對水平字符位置和間距不敏感的可區(qū)分的損失函數(shù)，從而實(shí)現(xiàn)了端到端的可訓(xùn)練的序列識別。盡管CTC很有效，但它沒有一個(gè)機(jī)制來模擬其輸出字符之間的依賴關(guān)系。因此，[54]依靠一個(gè)外部語言模型，如詞典，將語言先驗(yàn)因素納入其識別中。
我們使用一個(gè)由雙向解碼器擴(kuò)展的序列-序列模型來解決識別問題。由于序列到序列模型的輸出是由一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)產(chǎn)生的，它捕捉到了字符的依賴性，從而將語言建模納入了識別過程。此外，雙向解碼器在兩個(gè)方向上都捕捉到了字符的依賴性，利用了更豐富的上下文并提高了性能。圖7描述了單向版本的結(jié)構(gòu)。按照經(jīng)典的序列到序列模型，我們的模型由一個(gè)編碼器和一個(gè)解碼器組成。它們將在以下兩節(jié)中描述。

圖7.基本文本識別網(wǎng)絡(luò)的結(jié)構(gòu)。

3.2.1 編碼器：卷積-遞歸神經(jīng)網(wǎng)絡(luò)

豐富的、有鑒別力的特征對于一個(gè)識別模型是非常重要的。理想情況下，一個(gè)單詞的字符是排成一行的，因此可以用描述從左到右（或者同樣地，從右到左）排列的局部圖像區(qū)域的特征序列來很好地表示。
如圖7所示，編碼器首先通過卷積層的堆疊從輸入圖像中提取一個(gè)特征圖。卷積層（“ConvNet”）的設(shè)計(jì)使特征圖的高度為1。接下來，特征圖被沿其行軸分割成一個(gè)特征序列。特征圖的形狀為hconv×wconv×dconv，分別為其高度、寬度和深度。分割后，特征圖被轉(zhuǎn)換為wconv向量序列，每個(gè)向量都有hconvdconv尺寸。
ConvNet可以提取強(qiáng)大的圖像特征，特別是當(dāng)它由許多具有剩余連接的卷積層組成時(shí)[20]。但是，這種特征仍然受到它們的感受野的限制，即它們所捕捉的圖像區(qū)域。為了擴(kuò)大特征背景，我們在特征序列上采用了一個(gè)多層雙向LSTM（BLSTM）網(wǎng)絡(luò)[18]。BLSTM網(wǎng)絡(luò)對特征序列進(jìn)行雙向分析，在兩個(gè)方向上捕捉長距離的依賴關(guān)系。它輸出一個(gè)相同長度的新特征序列，用H = [h1 , … , hn]表示，其中n = wconv。

3.2.2 解碼器：注意力的序列到序列模型

序列到序列的模型將特征序列翻譯成字符序列。它能夠輸入和輸出任意長度的序列。這樣的模型因其在序列建模中的簡單性和強(qiáng)大的功能以及捕捉輸出依賴性的能力而具有吸引力。
序列到序列模型有多種形式，如[3]、[15]、[58]。我們基于注意力序列到序列模型[3], [13]建立我們的解碼器，因?yàn)樗诿總€(gè)解碼步驟中都可以訪問編碼器的輸出，并且有一個(gè)直觀的、可解釋的行為，可以更容易地進(jìn)行調(diào)試和分析。
注意力序列到序列模型是一個(gè)單向的遞歸網(wǎng)絡(luò)。它迭代工作了T個(gè)步驟，產(chǎn)生一個(gè)長度為T的符號序列，用（y1, …, yT）表示。
在步驟t，解碼器根據(jù)編碼器輸出H、內(nèi)部狀態(tài)st-1和上一步預(yù)測的符號yt-1，預(yù)測一個(gè)字符或一個(gè)序列結(jié)束符號（EOS）。在這一步中，解碼器開始計(jì)算一個(gè)注意力權(quán)重的向量。 α_t∈R^n，通過其注意力機(jī)制。

其中w、W、V是可訓(xùn)練的權(quán)重。
注意力權(quán)重有效地表明了編碼器輸出的每一項(xiàng)的重要性。以權(quán)重為系數(shù)，解碼器將H的列線性地組合成一個(gè)向量，這就是所謂的glimpse。

顧名思義，一瞥描述了H編碼的整個(gè)上下文的一小部分。它被作為輸入到解碼器的遞歸單元，產(chǎn)生一個(gè)輸出向量和一個(gè)新的狀態(tài)向量。

其中(gt, f (yt-1 ))是gt和yt-1的單熱嵌入的連接。rnn代表任何循環(huán)單元（例如LSTM[22]，GRU[12]）的步驟函數(shù)，其輸出和新狀態(tài)分別用xt和st來表示。最后，xt被用來預(yù)測當(dāng)前步驟的符號。

由于yt-1被納入計(jì)算中，解碼器學(xué)會(huì)了捕捉其輸出字符之間的依賴關(guān)系。這就像一個(gè)隱含的語言模型，用它學(xué)到的語言先驗(yàn)來協(xié)助識別。
在推理過程中，我們可以采用貪婪的解碼方案，即采取具有最高softmax得分的符號，或者采用波束搜索的方法，在每一步都保持具有最高累積得分的k個(gè)候選者。在實(shí)踐中，我們使用k=5的波束搜索。與貪婪解碼相比，波束搜索產(chǎn)生了輕微但持續(xù)的準(zhǔn)確性改進(jìn)。

3.2.3 雙向解碼器

盡管一個(gè)序列到序列的解碼器能捕捉到輸出的依賴性，但它只捕捉到一個(gè)方向，而錯(cuò)過了另一個(gè)方向。例如，以從左到右的順序識別文字的解碼器可能難以決定某些字體中大寫字母 "I "和小寫字母 "l "之間的第一個(gè)字母，因?yàn)樗鼈冊谝曈X上很難區(qū)分，而且解碼器對過去解碼的字母沒有記憶。這樣的單詞可能更容易被按從右到左的順序工作的解碼器識別，因?yàn)槠溆嗟淖帜笗?huì)根據(jù)語言的先驗(yàn)情況暗示第一個(gè)字母。

圖8.雙向解碼器。"0.5 "和 "0.8 "是識別分?jǐn)?shù)。

正如這個(gè)例子所表明的，在相反方向工作的解碼器有可能是互補(bǔ)的。為了利用兩個(gè)方向的依賴性，我們提出了一個(gè)雙向解碼器，它由兩個(gè)方向相反的解碼器組成。如圖8所示，一個(gè)解碼器被訓(xùn)練成從左到右預(yù)測字符，另一個(gè)從右到左。在運(yùn)行兩個(gè)解碼器后，會(huì)產(chǎn)生兩個(gè)識別結(jié)果。為了合并這些結(jié)果，我們只需挑選識別分?jǐn)?shù)最高的一個(gè)，即所有預(yù)測符號的對數(shù)最高分?jǐn)?shù)之和。

3.3 訓(xùn)練

該模型在多任務(wù)設(shè)置下進(jìn)行端到端的訓(xùn)練，其目標(biāo)是

其中 y_1 ,…,y_t ,…,y_T是由一個(gè)字符序列表示的真實(shí)文本。目標(biāo)是從左到右的解碼器和從右到左的解碼器損失的平均值，它們的預(yù)測分布分別用pltr和prtl表示。
我們模型中所有層的權(quán)重都是隨機(jī)初始化的，除了定位網(wǎng)絡(luò)。由于TPS變換是由定位網(wǎng)絡(luò)預(yù)測的控制點(diǎn)計(jì)算出來的，隨機(jī)初始化的定位網(wǎng)絡(luò)導(dǎo)致控制點(diǎn)的隨機(jī)放置，這將扭曲Ir并導(dǎo)致訓(xùn)練過程中的不穩(wěn)定性。為了解決這個(gè)問題，我們初始化最后一個(gè)全連接層（fc2），使Ir在訓(xùn)練開始時(shí)不被扭曲。具體地說，我們將fc2的權(quán)重設(shè)置為零，并將其偏差設(shè)置為C’與C相同的值。我們發(fā)現(xiàn)，這種初始化方案產(chǎn)生了一個(gè)更穩(wěn)定的訓(xùn)練過程。

4 實(shí)驗(yàn)

我們進(jìn)行了廣泛的實(shí)驗(yàn)來驗(yàn)證我們模型的每一部分的有效性，并將其性能與其他最先進(jìn)的方法進(jìn)行比較。在本節(jié)中，我們首先在第4.1節(jié)中明確了實(shí)驗(yàn)設(shè)置。然后，我們在第4.2節(jié)和第4.3節(jié)中進(jìn)行了一些消融研究，每項(xiàng)研究都針對一個(gè)模型部分，以證明其有效性并分析其行為。最后，在第4.4節(jié)中，我們在公共數(shù)據(jù)集上對ASTER進(jìn)行評估，并將其與其他最先進(jìn)的方法進(jìn)行比較。

4.1 實(shí)驗(yàn)設(shè)置

4.1.1 數(shù)據(jù)集

所提出的模型是在兩個(gè)合成數(shù)據(jù)集上訓(xùn)練的，沒有在其他數(shù)據(jù)集上進(jìn)行微調(diào)。該模型在5個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了測試，以評估其一般識別性能。此外，我們在2個(gè)不規(guī)則文本的特殊數(shù)據(jù)集上測試該模型，以證明其糾正能力。按照標(biāo)準(zhǔn)，我們用不區(qū)分大小寫的單詞準(zhǔn)確性來評估識別性能。
Synth90k是[24]中提出的合成文本數(shù)據(jù)集。該數(shù)據(jù)集包含900萬張由一組90k常見英語單詞生成的圖像。字詞被呈現(xiàn)在自然圖像上，并帶有隨機(jī)的變換和效果。Synth90k中的每張圖片都被注釋了一個(gè)真實(shí)的單詞。這個(gè)數(shù)據(jù)集中的所有圖像都是用來訓(xùn)練的。
SynthText是[19]中提出的合成文本數(shù)據(jù)集。其生成過程與[24]的過程相似。但與[24]不同的是，SynthText是針對文本檢測的。因此，文字被渲染成完整的圖像。我們使用真實(shí)的單詞邊界框來裁剪單詞。
IIIT5k-Words（IIIT5k）[44]包含3000張從網(wǎng)上收集的測試圖像。每張圖片都與一個(gè)短的、50個(gè)詞的詞庫和一個(gè)長的、1000個(gè)詞的詞庫有關(guān)。一個(gè)詞庫由基礎(chǔ)真理詞和其他隨機(jī)詞組成。
街景文本（SVT）[60]是從谷歌街景中收集的。測試集包含647張裁剪過的文字圖片。SVT中的許多圖像都被噪聲、模糊和低分辨率嚴(yán)重破壞。每張圖片都與一個(gè)50個(gè)詞的詞庫相關(guān)聯(lián)。
ICDAR 2003(IC03)[42]包含860張過濾后的剪裁詞圖像。按照[60]，我們放棄了包含非字母數(shù)字字符或少于三個(gè)字符的詞。每幅圖像都有一個(gè)在[60]中定義的50個(gè)詞的詞庫。
ICDAR 2013（IC13）[32]繼承了IC03的大部分圖像，并以新的圖像對其進(jìn)行擴(kuò)展。該數(shù)據(jù)集通過刪除包含非字母數(shù)字字符的單詞進(jìn)行過濾。該數(shù)據(jù)集包含1015張圖像。沒有提供詞匯表。
ICDAR 2015附帶文本（IC15）是ICDAR 2015魯棒閱讀競賽的挑戰(zhàn)4[31]。這項(xiàng)挑戰(zhàn)的特點(diǎn)是偶然的文本圖像，這些圖像是由一副谷歌眼鏡拍攝的，沒有經(jīng)過仔細(xì)的定位和聚焦。因此，該數(shù)據(jù)集包含了大量不規(guī)則的文本。測試圖像是通過使用地面真實(shí)的單詞邊界框來裁剪單詞而獲得的。
SVT-Perspective（SVTP）是在[49]中提出的，用于評估識別透視文字的性能。SVTP中的圖像是從谷歌街景中的側(cè)視圖像中挑選出來的。其中許多圖像因非正面視角而嚴(yán)重失真。該數(shù)據(jù)集由639張裁剪過的圖片組成，用于測試，每張圖片都有一個(gè)從SVT數(shù)據(jù)集繼承的50個(gè)詞的詞庫。
CUTE80（CUTE）是在[51]中提出的。該數(shù)據(jù)集專注于彎曲的文本。它包含80張?jiān)谧匀粓鼍爸信臄z的高分辨率圖像。CUTE80最初是為檢測任務(wù)提出的。我們對注釋的文字進(jìn)行裁剪，得到288張圖像的測試集。沒有提供詞庫。

4.1.2 文字整頓網(wǎng)絡(luò)

在進(jìn)入整流網(wǎng)絡(luò)之前，圖像被調(diào)整為64×256大小。我們使用大的輸入尺寸，以便在整流采樣前保留高分辨率。采樣器輸出的圖像大小為32×100，這也是識別網(wǎng)絡(luò)的輸入大小。

表1 文本識別網(wǎng)絡(luò)的配置。每個(gè)區(qū)塊是一個(gè)殘差網(wǎng)絡(luò)區(qū)塊。s "代表一個(gè)塊中第一個(gè)卷積層的跨度。’*'表示動(dòng)態(tài)輸出長度。"Out Size "是卷積層的特征圖大小（高度×寬度）和遞歸層的序列長度。"Att.LSTM "代表注意型LSTM解碼器。兩個(gè)解碼器被實(shí)例化并并行工作。

定位網(wǎng)絡(luò)對輸入圖像進(jìn)行了降頻處理，達(dá)到32×64。它由6個(gè)卷積層組成，核大小為3×3，前5層中的每一層后面都有一個(gè)2×2的最大集合層。輸出濾波器的數(shù)量分別為32、64、128、256、256和256。卷積層之后是兩個(gè)全連接層。它們的輸出單元的數(shù)量分別為512和2K，其中K是控制點(diǎn)的數(shù)量。在整個(gè)實(shí)驗(yàn)中，我們將K設(shè)置為20。其他的K值也會(huì)導(dǎo)致類似的結(jié)果。

4.1.3 文本識別網(wǎng)絡(luò)

識別網(wǎng)絡(luò)的配置列于表1。我們使用一個(gè)45層的殘差網(wǎng)絡(luò)[20]作為卷積特征提取器。每個(gè)殘差單元包括一個(gè)1×1卷積，然后是3×3卷積，因?yàn)樽罱墓ぷ鱗23]表明了這個(gè)方案的效率。特征圖在前兩個(gè)殘差塊中通過2×2步長卷積進(jìn)行下采樣。在第四和第五個(gè)殘余塊中，步長被改為2×1。2×1的下采樣步長在水平軸上保留了更多的分辨率，以便于區(qū)分相鄰的字符。
殘差網(wǎng)絡(luò)之后是兩層雙向LSTM（BiLSTM）。每層由一對具有256個(gè)隱藏單元的LSTM組成。在進(jìn)入下一層之前，LSTM的輸出被串聯(lián)并線性投影到256維。
解碼器是注意型LSTM。注意單元和隱藏單元的數(shù)量都是256。解碼器可識別94個(gè)字符類別，包括數(shù)字、大寫和小寫字母以及32個(gè)ASCII標(biāo)點(diǎn)符號。當(dāng)評估協(xié)議對大小寫不敏感并且不考慮標(biāo)點(diǎn)符號時(shí)，我們將解碼器的輸出規(guī)范化為小寫字母，并刪除所有預(yù)測的標(biāo)點(diǎn)符號。

4.1.4 優(yōu)化

該模型是從頭開始訓(xùn)練的。我們采用ADADELTA[69]作為優(yōu)化器。一個(gè)更簡單的SGD優(yōu)化器的動(dòng)量也能成功地訓(xùn)練模型，但準(zhǔn)確率略低。該模型由64個(gè)例子組成的批次進(jìn)行訓(xùn)練，并進(jìn)行一百萬次迭代。每個(gè)批次由32個(gè)來自Synth90k的例子和另外32個(gè)來自SynthText的例子構(gòu)成。以這種方式訓(xùn)練的模型明顯優(yōu)于僅在Synth90k上訓(xùn)練的模型（例如[54]，[55]）。學(xué)習(xí)率最初設(shè)定為1.0，在0.6M和0.8M的步驟中分別衰減為0.1和0.01。盡管ADADELTA的學(xué)習(xí)率是自適應(yīng)的，但我們發(fā)現(xiàn)經(jīng)典的學(xué)習(xí)率計(jì)劃對性能是有益的。

4.1.5 實(shí)施

我們使用TensorFlow[1]實(shí)現(xiàn)所提出的模型。該模型在一塊擁有12GB內(nèi)存的NVIDIA TITAN Xp顯卡上訓(xùn)練。訓(xùn)練速度約為6.5迭代/秒，需要不到2天的時(shí)間來達(dá)到收斂。當(dāng)測試批次大小為1時(shí)，推理速度為每幅圖像20ms。這個(gè)速度可以通過更大的批次大小來提高。

4.2 關(guān)于文本整頓的實(shí)驗(yàn)

我們研究了文本整頓網(wǎng)絡(luò)的兩個(gè)方面。首先，我們從定量和定性兩方面研究文本整頓的效果。第二，對于定位網(wǎng)絡(luò)，我們研究其對權(quán)重初始化的敏感性。

4.2.1 矯正的效果

為了分析整頓的效果，我們研究了所提模型的兩個(gè)變體。第一個(gè)變體只包括識別網(wǎng)絡(luò)，不進(jìn)行整流。為了避免其他模型部分的影響，我們還將雙向解碼器改為單方向的。第二個(gè)變體是第一個(gè)變體加上整頓網(wǎng)絡(luò)。這兩個(gè)變體都是從頭開始訓(xùn)練的，使用第4.1節(jié)中描述的相同訓(xùn)練設(shè)置。它們的性能是在六個(gè)測試數(shù)據(jù)集上評估的，即IIIT5k、SVT、IC03、IC13、SVTP和CUTE。

表2 有無整頓的識別準(zhǔn)確率。

表2列出了這兩個(gè)變體的結(jié)果。可以看出，在所有的數(shù)據(jù)集上，有矯正功能的模型都優(yōu)于無矯正功能的模型，特別是在SVTP（+4.7%）和CUTE（+3.1%）上。由于這兩個(gè)數(shù)據(jù)集都是由不規(guī)則的文本組成的，所以整頓顯示了顯著的效果。此外，我們構(gòu)建了一系列不規(guī)則程度遞增的數(shù)據(jù)集。這是通過將SVTP+CUTE和IIIT5k（所有的例子都被認(rèn)為是有規(guī)律的）以不同的比例混合來實(shí)現(xiàn)的。所有的數(shù)據(jù)集都有933個(gè)例子。圖9顯示了整頓效果（有整頓和無整頓之間的準(zhǔn)確度差異）與不規(guī)則例子的比例。可以看出，整頓效果隨著不規(guī)則程度的增加而單調(diào)地增加，顯示了對不規(guī)則文本的整頓效果。

圖9.整理改進(jìn)與不規(guī)則文本部分的關(guān)系

表3 通過[55]和ASTER進(jìn)行的校正圖像和識別結(jié)果。識別錯(cuò)誤用紅色字符標(biāo)記。

為了進(jìn)行定性比較，表4直觀地顯示了CUTE80和SVTPerspective的一些例子的整頓結(jié)果。即使沒有對控制點(diǎn)位置的直接監(jiān)督，整頓網(wǎng)絡(luò)也會(huì)學(xué)習(xí)將控制點(diǎn)放在文本的上下邊緣附近。這些點(diǎn)以均勻的間距排列在一條平滑的曲線上，在整頓后的圖像中幾乎沒有失真或人工痕跡。
從表4可以看出，矯正網(wǎng)絡(luò)在透視文字上的工作很有效。即使在有嚴(yán)重透視變形的圖像上（如 "starbucks "和 “storage”），整頓網(wǎng)絡(luò)也能將文字整頓成規(guī)則的文字，大大緩解了識別難度。整理網(wǎng)絡(luò)還能糾正彎曲的文字。例如，在 “ronaldo”、"optimal "和 "grove "這些詞上，控制點(diǎn)被預(yù)測為弧形，而文字被矯正為規(guī)則的形狀。雖然矯正后的圖像仍有扭曲，但識別網(wǎng)絡(luò)能夠正確識別它們。
另一個(gè)有趣的現(xiàn)象是，整改后的文字往往會(huì)出現(xiàn)傾斜。這種現(xiàn)象在很多例子中都可以觀察到，比如表4中的 “academy”、“entrance”、"museum "和 “storage”。我們推測其原因是傾斜簡化了學(xué)習(xí)，因?yàn)樗鼘?dǎo)致相鄰的字符有重疊的間隔，因此沿垂直圖像軸引入了依賴性。
最后，我們觀察到一些控制點(diǎn)被置于其圖像邊界之外，例如 "city "和 "lights "中的控制點(diǎn)。與[55]不同的是，我們沒有強(qiáng)制控制點(diǎn)在圖像邊界內(nèi)，因?yàn)檫@樣做可能會(huì)干擾采樣網(wǎng)格并導(dǎo)致圖像失真。從表3可以看出，雖然ASTER的整頓偶爾會(huì)失敗，但一般來說，它產(chǎn)生的圖像的失真要比[55]的少得多。這表明，簡單的修改就能使圖像質(zhì)量得到明顯的改善。

4.2.2 對權(quán)重初始化的敏感性

適當(dāng)?shù)臋?quán)重初始化對于順利地訓(xùn)練整頓網(wǎng)絡(luò)是必要的。如第3.3節(jié)所述，我們用零權(quán)重和一定的偏置值來初始化最后一個(gè)全連接層。我們將這個(gè)初始化方案命名為identity。
為了證明權(quán)重初始化的效果，圖10比較了identity和另一種稱為隨機(jī)的初始化方案，其中所有模型層都是隨機(jī)初始化的。可以看出，identity導(dǎo)致了更快的收斂和更穩(wěn)定的訓(xùn)練過程。同時(shí)，隨機(jī)初始化的模型仍然可以通過更多的訓(xùn)練迭代來成功訓(xùn)練，并且最終達(dá)到與identity非常接近的精度。我們觀察到，一個(gè)隨機(jī)初始化的模型一開始會(huì)產(chǎn)生垃圾的矯正圖像，但在幾千次的訓(xùn)練迭代后就會(huì)恢復(fù)正常。
在[55]中，一些精心設(shè)計(jì)的權(quán)重初始化方案是成功訓(xùn)練模型的必要條件。而在隨機(jī)初始化的情況下，訓(xùn)練完全失敗。相比之下，本文中的模型對權(quán)重初始化的敏感性要低得多。即使在隨機(jī)初始化的情況下，它也能成功訓(xùn)練。

表4 SVT-Perspective和CUTE80的部分結(jié)果。對于每兩行，第一行包含輸入圖像（頂部），預(yù)測的控制點(diǎn)（可視化為綠色十字），以及矯正后的圖像（底部）。第二行包含識別結(jié)果。

4.3 文本識別的實(shí)驗(yàn)

在本節(jié)中，我們研究了文本識別網(wǎng)絡(luò)的幾個(gè)關(guān)鍵方面，包括其注意力機(jī)制、雙向解碼器以及識別性能與字長的關(guān)系。

4.3.1 對注意力的分析

注意力機(jī)制在識別網(wǎng)絡(luò)中起著核心作用。根據(jù)公式5，局部特征被加權(quán)組合來識別一個(gè)字符。這表明注意力機(jī)制進(jìn)行了隱性的字符檢測。

圖10.不同模型初始化方案下的單詞準(zhǔn)確率（左）和訓(xùn)練損失（右）。

圖11.注意力權(quán)重的可視化。

為了理解解碼器的行為，我們提取了注意力權(quán)重，即公式5中的αt,i，并在圖11所示的幾個(gè)例子上將其可視化。在每幅圖像的上方，一個(gè)注意力權(quán)重的矩陣被可視化為一個(gè)二維地圖。地圖的第t行對應(yīng)的是第t個(gè)解碼步驟的注意力權(quán)重。除了非常短的單詞，我們可以觀察到注意力權(quán)重和字符之間的清晰排列。這證明了識別網(wǎng)絡(luò)所進(jìn)行的隱性字符檢測。

4.3.2 雙向解碼器

為了評估雙向解碼器的有效性，我們創(chuàng)建了三個(gè)模型變體，即L2R，以從左到右的順序識別文本；R2L，以從右到左的順序識別文本；Bidirectional，雙向解碼器。這些變體也是使用第4.1節(jié)中描述的相同訓(xùn)練設(shè)置從頭開始訓(xùn)練的。表5比較了它們的識別準(zhǔn)確率。

表5 不同解碼器的識別準(zhǔn)確率。L2R和R2L分別代表從左到右和從右到左。

總的來說，L2R和R2L有相似的準(zhǔn)確性。L2R在IIIT5k、IC03和SVTP上表現(xiàn)較好，而R2L在其他方面表現(xiàn)較好。這表明，這兩個(gè)變體可能有利于不同的數(shù)據(jù)分布。同時(shí)，Bidirectional在所有的數(shù)據(jù)集上都優(yōu)于這兩個(gè)變體，只有一個(gè)例外，Bidirectional等于更好的變體。特別是在SVT上，Bidirectional比其他兩個(gè)變體分別多出2.8%和1.6%，驗(yàn)證了雙向解碼器的有效性。

4.3.3 準(zhǔn)確度與字長的關(guān)系

識別網(wǎng)絡(luò)將固定尺寸的圖像作為輸入。盡管將圖像調(diào)整為固定尺寸不可避免地會(huì)導(dǎo)致圖像失真，但我們認(rèn)為它對性能的影響是很小的。主要原因是失真同樣影響到訓(xùn)練和測試數(shù)據(jù)。因此，我們的模型被訓(xùn)練來處理拉長和壓縮的例子。
圖12顯示了識別準(zhǔn)確率與單詞長度之間的關(guān)系?？梢钥闯?#xff0c;在長度等于或小于11的單詞上，識別準(zhǔn)確率相當(dāng)平均。超過這個(gè)長度，準(zhǔn)確率就會(huì)下降。然而，這部分是由于長的單詞本身就很難在全詞準(zhǔn)確性的衡量下預(yù)測正確。我們也嘗試過用比例調(diào)整和填充來代替固定大小的調(diào)整，但在大多數(shù)情況下，它的性能更差。

圖12.識別準(zhǔn)確率與字長的關(guān)系（在IIIT5k上測試）

4.4 與技術(shù)現(xiàn)狀的比較

最后，我們將我們的模型的性能與其他最先進(jìn)的模型進(jìn)行比較。一些數(shù)據(jù)集提供了用于約束識別輸出的詞庫。當(dāng)給定一個(gè)詞庫時(shí)，我們只需將預(yù)測的詞替換為編輯距離指標(biāo)下最接近的詞庫詞。
表6比較了一些方法的識別準(zhǔn)確率。我們的方法在12種方法中取得了9種最佳結(jié)果。特別是在IIIT5k和SVT上，我們的方法與之前的最佳結(jié)果相比，識別誤差幾乎減半。與[11]和[26]相比，我們的模型只在少數(shù)結(jié)果上有所不足。然而，需要注意的是：1）[11]使用了額外的字符級注釋，而ASTER沒有；2）[26]是一個(gè)受限輸出的識別器。它只在其90k字典中識別，而ASTER是無約束的?？紤]到所測試的數(shù)據(jù)集涵蓋了廣泛的真實(shí)世界的場景，并且所有的結(jié)果都是由一個(gè)模型產(chǎn)生的，很明顯我們的方法在一般情況下工作能力很強(qiáng)。
表6還列出了ASTER的兩個(gè)變體，即ASTER-A和ASTER-B。它們與ASTER的區(qū)別僅在于ConvNet結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)。ASTER-A在所有的數(shù)據(jù)集和指標(biāo)上都優(yōu)于[55]，只有在IIIT5k上例外，該數(shù)據(jù)集只包括普通文本。這進(jìn)一步驗(yàn)證了本文所介紹的擴(kuò)展的有效性。[64]，同樣使用VGG，在一些數(shù)據(jù)集上優(yōu)于ASTER-A。然而，[64]使用的是具有字符級注釋的私有訓(xùn)練數(shù)據(jù)集。
我們已經(jīng)證明了整頓和雙向的有效性。在整流和雙向解碼的情況下，ASTER在所有測試的數(shù)據(jù)集上都優(yōu)于表2中的With Rect.和表5中的Bidirectional這兩種變體。因此，我們可以看到，整流和雙向解碼器所帶來的性能提升是相加的。

5 端對端識別

文本識別器通常與文本檢測器一起使用，以構(gòu)建一個(gè)端到端的識別系統(tǒng)。通常情況下，檢測器首先定位單詞的邊界框。然后，識別器識別被方框裁剪的圖像。識別性能通常受到檢測到的框的質(zhì)量的影響，因?yàn)樗缮⒌目驎?huì)導(dǎo)致不完美的裁剪，這就很難識別。
ASTER對于端到端識別系統(tǒng)的吸引力不僅在于其強(qiáng)大的識別性能，還在于其加強(qiáng)檢測的能力，這有兩方面的原因。首先，ASTER產(chǎn)生的識別分?jǐn)?shù)可以用來過濾檢測框。第二，ASTER可以通過它的矯正網(wǎng)絡(luò)來矯正檢測盒。正如我們已經(jīng)證明的那樣，ASTER傾向于預(yù)測沿上下文本邊緣的控制點(diǎn)。從控制點(diǎn)中，我們可以估計(jì)出一個(gè)新的、有方向性的邊界盒來替代原來的檢測盒。因此，ASTER可以將一個(gè)水平的檢測器變成一個(gè)定向的檢測器。

圖13.檢測盒整改過程。

圖13說明了檢測盒的整頓過程。假設(shè)文字是由一個(gè)水平檢測器檢測出來的。給出預(yù)測的控制點(diǎn)，我們使用線性最小二乘回歸方法，分別從前半部分和后半部分的點(diǎn)估計(jì)兩條直線。對于每條直線，通過控制點(diǎn)投射到直線上的最小和最大X坐標(biāo)找到兩個(gè)端點(diǎn)。這四個(gè)端點(diǎn)構(gòu)建了一個(gè)四邊形，這就是整頓后的檢測。同樣地，我們可以根據(jù)任務(wù)的需要，估計(jì)一個(gè)軸對齊的矩形或一個(gè)定向的矩形。
我們首先評估ASTER的端到端識別性能。我們使用TextBoxes[38]和ASTER構(gòu)建了一個(gè)端到端的識別系統(tǒng)。雖然TextBoxes在撰寫本文時(shí)并不是最強(qiáng)的文本檢測器，但我們強(qiáng)調(diào)的是，即使沒有強(qiáng)大的文本檢測器，ASTER也能取得優(yōu)異的端到端準(zhǔn)確率。源代碼和模型都是從GitHub倉庫1獲得的。我們在IC15上對原始模型進(jìn)行了微調(diào)，IC15是一個(gè)定向的文本檢測數(shù)據(jù)集。具體來說，我們使用學(xué)習(xí)率為10-4的SGD優(yōu)化器對模型進(jìn)行1500步的微調(diào)；批次大小設(shè)置為16；其余設(shè)置與[38]相同。
表8總結(jié)了這些結(jié)果。我們的系統(tǒng)在所有指標(biāo)下都取得了最先進(jìn)的結(jié)果。請注意，與Deep TextSpotter[9]相比，我們的系統(tǒng)有一個(gè)較弱的檢測器，因?yàn)門extBoxes是水平的，而[9]是定向的。但是，我們的端到端性能仍然比[9]要好很多。

表6 識別結(jié)果比較。“50”, “1k”, "Full "是詞庫。"0 "表示沒有詞庫。*本文的會(huì)議版本。"90k "和 "ST "分別為Synth90k和SynthText數(shù)據(jù)集。"ST+"指包括字符級注釋。"Private "指私人訓(xùn)練數(shù)據(jù)。

表7 不同系統(tǒng)的檢測準(zhǔn)確率。

此外，我們展示了ASTER是如何加強(qiáng)檢測器的。表7比較了原始TextBoxes[9]、由ASTER加強(qiáng)的TextBoxes（沒有整頓）和由ASTER加強(qiáng)的TextBoxes的檢測準(zhǔn)確率。在沒有整頓的情況下，ASTER仍然大大加強(qiáng)了TextBoxes，用它的識別分?jǐn)?shù)重新給檢測框打分。矯正帶來了進(jìn)一步的改善，這來自于更好的重新打分和檢測矯正。
圖14顯示了端到端和探測整頓的結(jié)果。對于TextBoxes產(chǎn)生的每一個(gè)水平框，ASTER都會(huì)生成一個(gè)四邊形作為整頓后的檢測結(jié)果。四邊形更緊密地束縛了文本，因此提高了檢測精度。

6 結(jié)論

表8 端到端結(jié)果比較。"端到端 "和 "找詞 "是兩個(gè)不同的衡量標(biāo)準(zhǔn)?！皬?qiáng)”、"弱 "和 "通用 "表示不同的詞庫。

本文通過一個(gè)基于STN框架和TPS變換的顯式矯正機(jī)制來解決不規(guī)則文本識別問題。由此產(chǎn)生的文本識別器，稱為ASTER，在裁剪后的文本識別和端到端識別任務(wù)中顯示出卓越的性能。此外，由于其矯正機(jī)制，ASTER在加強(qiáng)文本檢測器方面顯示出額外的優(yōu)點(diǎn)，甚至能夠?qū)樗轿谋驹O(shè)計(jì)的檢測器進(jìn)行定向文本檢測。
在這項(xiàng)工作中，端到端的文本識別是以兩階段的方式解決的，這意味著檢測是在另一個(gè)網(wǎng)絡(luò)中使用單獨(dú)的特征進(jìn)行的。正如我們所展示的，ASTER可以進(jìn)行隱性文本檢測。但是這種檢測能力僅限于目標(biāo)文本附近的一個(gè)小范圍。將這一范圍擴(kuò)大到整個(gè)圖像將產(chǎn)生一個(gè)單階段、端到端的識別系統(tǒng)，這是一個(gè)值得進(jìn)一步研究的方向。

鳴謝

參考文獻(xiàn)

圖14.IC15上的端到端識別結(jié)果。紅色方框是由TextBoxes檢測到的。綠色的多邊形是矯正后的檢測結(jié)果。

創(chuàng)作不易，喜歡的話加個(gè)關(guān)注點(diǎn)個(gè)贊，?謝謝謝謝?

總結(jié)

以上是生活随笔為你收集整理的论文翻译-ASTER: An Attentional Scene Text Recognizer with Flexible Rectification的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【数据结构与算法基础】AOE网络与关键路
下一篇：陌上花开，可缓缓归矣——2016年校招总