日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ASTER: An Attentional Scene Text Recognizer

發(fā)布時(shí)間:2023/12/14 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ASTER: An Attentional Scene Text Recognizer 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

    • 總結(jié)
    • 0.摘要
    • 1.介紹
      • 1.1主要貢獻(xiàn)
    • 2.相關(guān)工作
      • 2.1文字識(shí)別
      • 2.2文字矯正 Text Rectification
      • 2.32.3 Text Detection and End-to-End Recognition
    • 3.模型
      • 3.1Rectification Network(糾正網(wǎng)絡(luò))
        • 31.1Localization Network
      • 3.1.2 Grid Generator
      • 3.1.3采樣
      • 3.1.4STN和RARE的比較
      • 3.2識(shí)別網(wǎng)絡(luò)
        • 3.2.1解碼器:卷積循環(huán)網(wǎng)絡(luò)
      • 3.2.2解碼器:基于注意力的seqtoseq模型
        • 3.2.3雙向解碼器
      • 3.3 Training
      • 4.1實(shí)驗(yàn)設(shè)置
        • 4.1.1數(shù)據(jù)集
        • 4.1.2 Text Rectification Network
        • 4.1.2Text Recognition Network
        • 4.1.4優(yōu)化
        • 4.1.5部署
      • 4.2矯正實(shí)驗(yàn)
        • 4.2.1Effect of Rectification
        • 4.2.2 Sensitivity to Weight Initialization
      • 4.3 Experiments on Text Recognition
        • 4.3.1 Analysis on Attention
        • 4.3.2Bidirectional Decoder
        • 4.3.3 Accuracy Versus Word Length
      • 4.4Comparison to State of the Art
    • 5 END-TO-END RECOGNITION
    • 6.其他資料

總結(jié)

主要解決了不規(guī)則,扭曲,變形的文本的識(shí)別問題

  • 對(duì)扭曲圖片進(jìn)行糾正->識(shí)別,網(wǎng)絡(luò)包括兩個(gè)部分,實(shí)現(xiàn)了目前最好的文本識(shí)別效果
  • 扭曲糾正網(wǎng)絡(luò)(STN),實(shí)際是對(duì)原始圖片進(jìn)行仿射變換,讓扭曲圖片變得好識(shí)別。關(guān)鍵在于找到這個(gè)仿射變換的方程,仿射變換的方程是通過找原始圖片矯正后圖片的對(duì)應(yīng)點(diǎn)實(shí)現(xiàn)的,所以問題的核心變成了預(yù)測(cè)控制點(diǎn)的位置,也就是原始圖片上某些點(diǎn)在新的圖片上的位置。
  • 找位置的過程是無監(jiān)督的,因?yàn)槌C正的不好,識(shí)別的就不好,所以他們之間有一種隱形的連接關(guān)系,最后的loss在表面上只和識(shí)別有關(guān)系,實(shí)際上矯正結(jié)果影響識(shí)別結(jié)果。
  • 找位置的參數(shù)初始化很重要,隨機(jī)的參數(shù)找的位置都是隨機(jī)的,矯正網(wǎng)絡(luò)就無法收斂,所以通過使得全連接層weights = 0,bias = 特殊值,讓一開始找的位置就是原始圖片上對(duì)應(yīng)點(diǎn)的位置,也就是初始化的矯正后的圖片 = 原始圖片,最開始網(wǎng)絡(luò)是沒有矯正功能的,
  • 矯正網(wǎng)絡(luò)最后沒有使用tanh激活函數(shù),輸出任意大小矯正預(yù)測(cè)值,需要同時(shí)對(duì)于超出原始圖像范圍的矯正點(diǎn)要進(jìn)行限制。
  • 通過預(yù)測(cè)矯正圖像上20個(gè)控制點(diǎn)的位置,與原始圖像上20個(gè)點(diǎn)的位置進(jìn)行映射 ,STN的基本原理是利用點(diǎn)之間的映射關(guān)系進(jìn)行仿射變換,通過采樣生成矯正后的圖片。
  • 整個(gè)過程是端到端訓(xùn)練的,很神奇,效果不錯(cuò)。

0.摘要

場(chǎng)景文本識(shí)別的一個(gè)具有挑戰(zhàn)性的方面是處理具有扭曲或不規(guī)則布局的文本。特別是,透視文本和彎曲文本在自然場(chǎng)景中很常見,很難識(shí)別。本文介紹了一種端到端神經(jīng)網(wǎng)絡(luò)模型ASTER,它由校正網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)組成。校正網(wǎng)絡(luò)自適應(yīng)地將輸入圖像轉(zhuǎn)換為新的圖像,對(duì)其中的文本進(jìn)行校正。它由一個(gè)靈活的Thin-Plate Spline transformation作為核心,該轉(zhuǎn)換處理各種文本不規(guī)則性,并在沒有人工注釋的情況下進(jìn)行訓(xùn)練。識(shí)別網(wǎng)絡(luò)是一個(gè)注意序列到序列的模型,它直接從校正后的圖像預(yù)測(cè)字符序列。整個(gè)模型從頭到尾進(jìn)行訓(xùn)練,只需要圖像和它們的groundtruth文本。通過大量的實(shí)驗(yàn),驗(yàn)證了校正的有效性,并證明了ASTER的最新識(shí)別性能。此外,我們還證明了ASTER在端到端識(shí)別系統(tǒng)中是一個(gè)強(qiáng)大的組件,因?yàn)樗軌蛟鰪?qiáng)檢測(cè)器。

Index Terms—Scene Text Recognition, Thin-Plate Spline, Image Transformation, Sequence-to-Sequence Learning

1.介紹

場(chǎng)景文本識(shí)別由于其具有廣泛的應(yīng)用價(jià)值,近年來引起了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注。盡管用于文檔文本的光學(xué)字符識(shí)別(OCR)系統(tǒng)十分成熟,但場(chǎng)景文本識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的問題。背景、外觀和布局的巨大變化帶來了巨大的挑戰(zhàn),傳統(tǒng)的OCR方法無法有效地處理這些問題。基于深度學(xué)習(xí)的識(shí)別模型的成功應(yīng)用推動(dòng)了場(chǎng)景文本識(shí)別技術(shù)的發(fā)展。其中包括使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行字符識(shí)別的方法,使用CNNs[24]、[26]對(duì)單詞進(jìn)行分類的方法,以及使用CNN和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[54]組合進(jìn)行字符序列識(shí)別的方法。盡管這些方法取得了成功,但它們并沒有明確地解決不規(guī)則文本的問題,即文本不是水平和正面的,具有曲線布局等。不規(guī)則文本的實(shí)例經(jīng)常出現(xiàn)在自然場(chǎng)景中。如圖1所示,典型的情況包括面向?qū)ο蟮奈谋尽⑼敢曃谋綶49]和彎曲文本。在設(shè)計(jì)時(shí)沒有這種不規(guī)則性的不變性,以前的方法常常難以識(shí)別這種文本實(shí)例。

本文介紹了一種用于場(chǎng)景文本識(shí)別的ASTER,它是一種具有靈活性的注意力場(chǎng)景文本識(shí)別器。ASTER采用顯式糾錯(cuò)機(jī)制處理不規(guī)則文本問題。如圖2所示,模型包含兩個(gè)部分:整流網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)。給定一個(gè)輸入圖像,校正網(wǎng)絡(luò)對(duì)圖像進(jìn)行變換以校正其中的文本。

變換叫做TPS The transformation is parameterized Thin-Plate Spline
可以處理各種文本不規(guī)則性。

不規(guī)則文本舉例

在推理過程中,校正網(wǎng)絡(luò)首先從圖像中預(yù)測(cè)TPS參數(shù),然后將其應(yīng)用于轉(zhuǎn)換。基于[28]提出的空間變換網(wǎng)絡(luò)(STN)框架,糾偏網(wǎng)絡(luò)完全可以通過識(shí)別網(wǎng)絡(luò)反向傳播的梯度進(jìn)行訓(xùn)練,不需要人工標(biāo)注。

該識(shí)別網(wǎng)絡(luò)從校正后的圖像中預(yù)測(cè)出一個(gè)字符序列,并將其作為一個(gè)注意序列來處理。基于[3]、[13]中提出的注意機(jī)制,識(shí)別網(wǎng)絡(luò)將字符檢測(cè)、字符識(shí)別和語言建模有效地封裝到一個(gè)模型中,實(shí)現(xiàn)了準(zhǔn)確的認(rèn)知。在此基礎(chǔ)上,將傳統(tǒng)的單向譯碼器擴(kuò)展為雙向譯碼器。該雙向解碼器由兩個(gè)解碼器組成,解碼器具有相反的解調(diào)方向。它合并了兩個(gè)解碼器的輸出,利用了兩個(gè)方向上的依賴關(guān)系。

通過對(duì)大量標(biāo)準(zhǔn)數(shù)據(jù)集的大量實(shí)驗(yàn),我們證明了ASTER在規(guī)則文本和不規(guī)則文本上的優(yōu)越性能。此外,當(dāng)與文本檢測(cè)器一起使用時(shí),ASTER顯示了通過過濾和細(xì)化檢測(cè)框來增強(qiáng)文本檢測(cè)器的能力。特別是,ASTER使水平文本檢測(cè)器能夠檢測(cè)定向文本。這些優(yōu)點(diǎn)使得ASTER成為端到端紋理識(shí)別系統(tǒng)的強(qiáng)大組件。

1.1主要貢獻(xiàn)

總之,本文的貢獻(xiàn)有三方面。
首先

  • 采用顯式糾偏機(jī)制解決了不規(guī)則文本識(shí)別問題,在不添加額外標(biāo)注的情況下,顯著提高了識(shí)別性能。
  • 其次,將attentional sequence-tosequence models引入場(chǎng)景文本識(shí)別問題,并利用雙向解碼器對(duì)其進(jìn)行了擴(kuò)展。
  • 第三,利用ASTER的文本校正和識(shí)別能力,提出了一種增強(qiáng)文本檢測(cè)器的方法。

本文通過三個(gè)主要擴(kuò)展超越了會(huì)議版本[55]。

  • 1)通過對(duì)整流網(wǎng)絡(luò)架構(gòu)的修改,實(shí)現(xiàn)了整流性能的突破。首先,使用不同分辨率的圖像進(jìn)行控制點(diǎn)預(yù)測(cè)和采樣,避免了原stn框架下分辨率下降的問題。其次,我們?cè)诙ㄎ痪W(wǎng)絡(luò)中減少了非線性激活,保留了反向傳播梯度,從而在訓(xùn)練過程中加快了收斂速度。因此,我們觀察到在精度、校正后的圖像質(zhì)量和對(duì)初始化的敏感性方面有顯著的改善;
  • 2)將原識(shí)別譯碼器擴(kuò)展為雙向譯碼器,以充分利用兩個(gè)方向的依賴關(guān)系;
  • 3)探討了ASTER在端到端文本識(shí)別中的應(yīng)用,并展示了它的優(yōu)勢(shì)。通過這些擴(kuò)展,ASTER的性能大大優(yōu)于[55],并顯示出更廣泛的適用性和優(yōu)勢(shì)。

2.相關(guān)工作

2.1文字識(shí)別

近年來出版了大量關(guān)于場(chǎng)景文本識(shí)別的文獻(xiàn)。綜合調(diào)查可以在[68]、[72]中找到。

早期工作主要關(guān)注文檔文本。由于文檔通常有干凈的背景,所以通常采用二值化方法[10]分割字符。然而,當(dāng)應(yīng)用于場(chǎng)景文本時(shí),這些方法無法處理文本外觀的巨大變化和自然圖像中的噪聲。

近幾十年來,一種流行的方法是定位單個(gè)字符并將它們組合成單詞。在這一行工作中,許多人選擇過濾一組冗余的字符建議,并用分類器識(shí)別它們。代表性的提案提取方法包括最大穩(wěn)定極值區(qū)域(MSER)[43]、[46]、極值區(qū)域(ER)[47]和筆畫寬度變換(SWT)[14],[65],[66]。這些方法利用了紋理或形狀的特征。在低噪聲圖像中對(duì)字符進(jìn)行定位是有效的。

其他人則采用基于學(xué)習(xí)的方法,使用滑動(dòng)窗口技術(shù)[35]、[44]、[45]對(duì)字符進(jìn)行定位,在這些方法中,局部區(qū)域被一個(gè)二元或多分類器(每個(gè)分類器是一個(gè)字母)密集分類,以獲得字符的位置和分?jǐn)?shù)。然后,執(zhí)行基于圖的推理,從檢測(cè)到的字符中找到單詞。

隨著深度神經(jīng)網(wǎng)絡(luò)在各種計(jì)算機(jī)視覺任務(wù)[33]、[50]中的成功應(yīng)用,許多人開始采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行文本識(shí)別。一些方法是利用神經(jīng)網(wǎng)絡(luò)[33]、34來定位和識(shí)別字符[29],[62],[70]。[62]創(chuàng)建了兩個(gè)ocnns分別對(duì)字符進(jìn)行定位和識(shí)別。[29]采用了類似的方法,但是只使用了一個(gè)CNN來同時(shí)執(zhí)行兩個(gè)任務(wù)。其他方法整體地識(shí)別ext。例如,Jaderberg等人使用一個(gè)90k類別的分類器CNN執(zhí)行文本識(shí)別,其中每個(gè)類對(duì)應(yīng)一個(gè)英語單詞。

文本識(shí)別也可以建模為結(jié)構(gòu)學(xué)習(xí)問題。[25]提出了一種用于無約束文本識(shí)別的structuredoutputCNN結(jié)構(gòu)。Su和lu[56]、[57]將文本識(shí)別建模為一個(gè)序列識(shí)別問題,并利用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)對(duì)其進(jìn)行了研究。緊隨其后的是[21]、[54],其中CNN和RNN被集成到文本識(shí)別中。Wang等人利用gated cnn擴(kuò)展了這一工作。

我們的方法屬于結(jié)構(gòu)化學(xué)習(xí)的范疇。它基于注意序列到序列的學(xué)習(xí)模型[3],[13]。該模型從輸入序列中學(xué)習(xí)預(yù)測(cè)輸出序列,最初用于機(jī)器翻譯和語音識(shí)別任務(wù)。本文的會(huì)議版[55]是第一個(gè)與[36]并行在場(chǎng)景文本識(shí)別任務(wù)中探索這類模型的。這項(xiàng)工作進(jìn)一步擴(kuò)展了雙向解碼器的[55]。

2.2文字矯正 Text Rectification

之前對(duì)文檔文本圖像[30]、[40]、[41]進(jìn)行了不規(guī)則文本的校正研究。這些工作基于形態(tài)學(xué)分析或配準(zhǔn)技術(shù)對(duì)文檔圖像進(jìn)行校正(或壓平),這些技術(shù)應(yīng)用于包含多行文本的圖像。另一方面,場(chǎng)景文本通常以單字的形式進(jìn)行識(shí)別,這些方法不能很好地推廣。

在場(chǎng)景文本方面,在[49]中研究了不規(guī)則文本問題,Phan等人提出了一種識(shí)別方法drobust來透視文本失真。最近,楊等等。[64]利用輔助字符檢測(cè)模型和對(duì)齊損失來解決不規(guī)則文本問題,有助于精確的字符定位。Bartz等人使用集成的糾錯(cuò)識(shí)別網(wǎng)絡(luò)[4]和[5]解決了這個(gè)問題。與[64]相比,我們的方法在概念上更簡(jiǎn)單,因?yàn)樗恍枰@式的字符檢測(cè)。此外,與[64]和[11]相比,我們的方法不需要額外的字符標(biāo)注。

2.32.3 Text Detection and End-to-End Recognition

TextBoxes 使用SSD作為文本檢測(cè)器
EAST使用FCN作為文本檢測(cè)器

一種常見的端到端識(shí)別系統(tǒng),包括一個(gè)序列識(shí)別器和一個(gè)序列識(shí)別器。以前的方法如Weinman等[63]和Jaderberg等人的[27]首先生成文本建議,然后用一個(gè)獨(dú)立的單詞識(shí)別模型識(shí)別它們。近年來,在端到端神經(jīng)網(wǎng)絡(luò)中集成檢測(cè)與識(shí)別的方法得到了廣泛的應(yīng)用。Deep TextSpotter[9]將基于anfcn的檢測(cè)器和基于ctc的識(shí)別器結(jié)合到一個(gè)端到端的可訓(xùn)練框架中。同樣,Li等人將文本建議網(wǎng)絡(luò)和注意順序認(rèn)知網(wǎng)絡(luò)整合在一起。雖然本文的重點(diǎn)是文本識(shí)別,但是我們展示了ASTER可以幫助實(shí)現(xiàn)最先進(jìn)的端到端性能,即使沒有最強(qiáng)的檢測(cè)器。此外,我們還證明了ASTER可以通過整流機(jī)制增強(qiáng)探測(cè)器。這些特性使得ASTER在端到端識(shí)別系統(tǒng)中成為一個(gè)很有吸引力的識(shí)別器。

3.模型

3.1Rectification Network(糾正網(wǎng)絡(luò))

該校正網(wǎng)絡(luò)利用二維變換對(duì)輸入圖像進(jìn)行校正。我們采用Thin-Plate-Spline8作為變換。TPS在圖像變換和匹配中得到了廣泛的應(yīng)用,如[6]。與其他簡(jiǎn)單的2D轉(zhuǎn)換相比,它更加靈活。仿射投影。TPS對(duì)圖像進(jìn)行非剛性變形,處理各種變形。圖3舉例說明了一些典型的糾正。尤其是TPS既能矯正透視文本,又能矯正彎曲文本,是兩種典型的不規(guī)則文本類型。

整流網(wǎng)絡(luò)基于Spatial Transformer etwork28。STN的核心思想是將層模型空間變換作為一個(gè)可學(xué)習(xí)的網(wǎng)絡(luò)層。圖4描述了整流網(wǎng)絡(luò)的結(jié)構(gòu)。該網(wǎng)絡(luò)首先通過其localization network預(yù)測(cè)一組控制點(diǎn)。

然后,從控制點(diǎn)計(jì)算TPS變換(一種非線性變化,相當(dāng)于仿射變化),并將其傳遞到網(wǎng)格發(fā)生器和采樣器,生成校正后的圖像Ir。由于控制點(diǎn)是由I來預(yù)測(cè)的,校正網(wǎng)絡(luò)除了輸入圖像外不需要額外的輸入。

31.1Localization Network

我們首先演示TPS如何糾正圖5中的文本。TPS變換是由兩組大小相等的控制點(diǎn)決定的,用k表示。輸出圖像上的控制點(diǎn)沿圖像的上下邊框放置在固定位置,間距相等。因此,當(dāng)輸入圖像上的控制點(diǎn)沿著上下文本邊緣進(jìn)行預(yù)測(cè)時(shí),生成的TPS transformation將輸出具有規(guī)則文本的校正圖像。

因此,文本校正的問題歸結(jié)為預(yù)測(cè)輸入圖像上的控制點(diǎn),我們使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)控制點(diǎn)進(jìn)行預(yù)測(cè)。
III:輸入圖像 IrI_{r}Ir?糾正后的圖像
假定在輸入圖像上和糾正后的圖像上都有K個(gè)控制點(diǎn),互相對(duì)應(yīng)
控制點(diǎn)的坐標(biāo)用C′C^{'}CCCC來表示,目前控制點(diǎn)的數(shù)目 K=20
其中C=[c1,c2,c3...ck]∈R2×KC = [c1,c2,c3...c_{k}]\in R^{2\times K}C=[c1,c2,c3...ck?]R2×K C′C^{'}C與C是一樣的
其中C中每一個(gè)點(diǎn)的坐標(biāo)表示為ck=[xk,yk]Tc_{k} = [x_{k},y_{k}]^{T}ck?=[xk?,yk?]T
左上角坐標(biāo)為(0,0)(0,0)(0,0),右下角為(1,1)(1,1)(1,1)

稍后我們將進(jìn)一步說明,認(rèn)證網(wǎng)絡(luò)中的所有模塊都是可微的。因此,在訓(xùn)練過程中,定位網(wǎng)絡(luò)完全由反向傳播梯度進(jìn)行訓(xùn)練,不需要在控制點(diǎn)上進(jìn)行人工標(biāo)注。

3.1.2 Grid Generator

IdI_ozvdkddzhkzdId?III通過下采樣得到的 , 定位網(wǎng)絡(luò)從 IdI_ozvdkddzhkzdId?中回歸采樣點(diǎn)C′C^{'}C。網(wǎng)絡(luò)由幾個(gè)卷積層組成,在它們之間插入最大池化層,輸出層為全連接層,輸出尺寸為2K2K2K。網(wǎng)絡(luò)輸入會(huì)被reshape成2維坐標(biāo)。

網(wǎng)格生成器計(jì)算一個(gè)變換并應(yīng)用于Ir中的每個(gè)像素位置,在i上生成一個(gè)網(wǎng)格采樣 p ={pi}。

一個(gè)二維TPS變換由一個(gè)2 (K + 3)矩陣表示:

上面這個(gè)公式當(dāng)中,

U,V\in R^{1\times K }

給定一個(gè)二維的點(diǎn)p,通過線性投影變換,可以找到對(duì)應(yīng)的點(diǎn)p0

其中? = r2 log?為徑向基核,應(yīng)用于p與控制點(diǎn)ck之間的歐氏距離。通過求解包含K個(gè)C與C0對(duì)應(yīng)的線性系統(tǒng),得到TPS的系數(shù):

3.1.3采樣

在校正網(wǎng)絡(luò)輸出端,采樣器生成校正后的圖像:
Ir=V(ρ,I)I_{r} = V(\rho ,I)Ir?=V(ρ,I)

采樣器通過插值p′p^{'}p的鄰點(diǎn)像素來計(jì)算ppp的值。由于p′p^{'}p可能落在圖像外部,所以在采樣之前會(huì)進(jìn)行值裁剪,以限制圖像邊界內(nèi)的采樣點(diǎn)。該采樣器是可微的,即它可以將紅外上的梯度反向傳播到IrI_{r}Ir?ρ\rhoρ 。這是通過可微圖像采樣方法實(shí)現(xiàn)的。更多細(xì)節(jié)請(qǐng)參考[28]。

3.1.4STN和RARE的比較

與我們之前的工作和原始的STN進(jìn)行比較,這篇論文主要包含以下兩點(diǎn)改進(jìn)。

與STN[28]不同,我們使用不同大小的圖像用于定位網(wǎng)絡(luò)和采樣網(wǎng)絡(luò)。我們對(duì)III進(jìn)行采樣獲取IdI_ozvdkddzhkzdId?,localization net從更小的圖片IdI_ozvdkddzhkzdId?獲取控制點(diǎn),以減少預(yù)測(cè)所需的參數(shù)數(shù)量。同時(shí),采樣器對(duì)原始圖像進(jìn)行操作(或類似地,將原始圖像調(diào)整到高分辨率)。由于糾正網(wǎng)絡(luò)經(jīng)常對(duì)輸入圖像進(jìn)行裁剪,在高分辨率圖像上采樣避免了輸出分辨率下降,從而保持了IrI_{r}Ir?的質(zhì)量。此外,本文還闡述了TPS在STN中的應(yīng)用。

與[55]不同的是,在最后一個(gè)全連接層中,我們沒有使用tanh激活函數(shù)來限制C′C^{'}C的值。在訓(xùn)練過程中,由于梯度在反向傳播過程中被很好地保留了,因此丟棄非線性激活函數(shù)可能會(huì)導(dǎo)致更快的收斂。如果沒有tanh,控制點(diǎn)可能會(huì)落在圖像邊界之外,所以我們?cè)诓蓸悠髦袑?duì)得到的值進(jìn)行了裁剪,以確保有效的采樣。實(shí)驗(yàn)結(jié)果表明,該方法顯著提高了權(quán)值初始化的性能和穩(wěn)定性。

3.2識(shí)別網(wǎng)絡(luò)

文本識(shí)別網(wǎng)絡(luò)直接從校正后的圖像中預(yù)測(cè)字符序列。
網(wǎng)絡(luò)是端到端可訓(xùn)練的。
訓(xùn)練時(shí)網(wǎng)絡(luò)的輸入只有使用圖像及其相應(yīng)的label。

最近的工作[54]證明了將文本識(shí)別建模為序列識(shí)別問題的有效性。該模型的核心是連接主義時(shí)間分類(CTC)方法[17]。CTC提供了一個(gè)不受水平字符位置和間距影響的可微的損失函數(shù),支持端到端可訓(xùn)練均衡識(shí)別。盡管CTC很有效,但它沒有一種機(jī)制來對(duì)其輸出字符之間的依賴關(guān)系建模。因此,[54]依賴于外部語言模型,例如詞典,將語言的先驗(yàn)融入到識(shí)別中。

我們使用雙向解碼器擴(kuò)展的seqtoseq模型來解決識(shí)別問題。由于seqtoseq模型的輸出是由遞歸神經(jīng)網(wǎng)絡(luò)生成的,因此它捕獲了字符依賴關(guān)系,從而將語言建模融入識(shí)別過程。此外,雙向解碼器可以在兩個(gè)方向上捕獲字符依賴關(guān)系,從而利用更豐富的上下文并提高性能。圖7描述了單向版本的結(jié)構(gòu)。根據(jù)經(jīng)典的序列到序列模型,我們的模型由編碼器和解碼器組成。它們將在下面的兩節(jié)中進(jìn)行描述。

3.2.1解碼器:卷積循環(huán)網(wǎng)絡(luò)

豐富和有識(shí)別能力的特征是識(shí)別網(wǎng)絡(luò)的關(guān)鍵。理想情況下,一個(gè)單詞的字符排列在一條直線上,因此由一個(gè)描述從左到右排列的局部圖像區(qū)域(或類似地,從右到左)的字符序列很好地表示出來。

如圖7所示,編碼器首先從卷積層上提取特征。特征圖的高度為(hight)1,接下來,通過沿著行軸進(jìn)行分割,將feature map轉(zhuǎn)換為一個(gè)feature sequence。特征圖的形狀是hconv×wconv×dconvh_{conv}\times w_{conv}\times d_{conv}hconv?×wconv?×dconv?,分別代表了高度,寬度和深度。在分割后,將特征映射轉(zhuǎn)為wconvw_{conv}wconv?的向量,每一個(gè)序列的大小是hconv×dconvh_{conv}\times d_{conv}hconv?×dconv?

卷積神經(jīng)網(wǎng)絡(luò)能夠提取出很強(qiáng)的圖像特征,特別是當(dāng)它由許多具有殘差連接[20]的卷積層組成時(shí)。但是,這些特征仍然受到它們接受域的限制,即它們所捕獲的圖像區(qū)域。為了擴(kuò)大特征上下文,我們?cè)谔卣餍蛄猩喜捎昧硕鄬与p向stm (BLSTM)網(wǎng)絡(luò)[18]。BLSTM網(wǎng)絡(luò)雙向分析特征序列,捕獲兩個(gè)方向的長(zhǎng)期依賴關(guān)系。輸出相同長(zhǎng)度的新特征序列,記為H=[h1,h2....hn]H = [h_{1},h_{2}....h_{n}]H=[h1?,h2?....hn?],其中hconvh_{conv}hconv?

3.2.2解碼器:基于注意力的seqtoseq模型

序列到序列模型將特征序列轉(zhuǎn)換為字符序列。它能夠輸入和輸出任意長(zhǎng)度的序列。這種模型的出現(xiàn)是由于它的簡(jiǎn)單性和強(qiáng)大的sequence modeling以及它捕獲輸出依賴關(guān)系的能力。

seqtoseq模型有多種形式,如[3]、[15]、[58]。我們建立我們的解碼器基于注意序列到序列模型[3],[13],因?yàn)樗性L問編碼器輸出的每一個(gè)解碼步驟,并有一個(gè)直觀和解釋的行為,使調(diào)試和分析更容易。

注意序列對(duì)序列模型是一個(gè)單向遞歸網(wǎng)絡(luò)。它對(duì)T步迭代工作,產(chǎn)生長(zhǎng)度為T的符號(hào)序列,表示為(y1,...yt)(y_{1},...y_{t})(y1?,...yt?)

在步驟t,譯碼器預(yù)測(cè)一個(gè)字符或一個(gè)停止符號(hào)(EOS),根據(jù)編碼器的輸出HHH,內(nèi)部狀態(tài)st?1s_{t-1}st?1?,和上一步的預(yù)測(cè)結(jié)果yt?1y_{t-1}yt?1?。在這一步中,解碼器首先計(jì)算 attrntion weights,αt∈Rn\alpha_{t} \in R^{n}αt?Rn,通過其注意機(jī)制公式:

其中,w,W,Vw,W,Vw,W,V是可訓(xùn)練的權(quán)重

注意權(quán)值有效地表示編碼器輸出的每一項(xiàng)的重要性。解碼器以權(quán)值為系數(shù),將H的列向量線性組合成向量,稱為一glimpse:
αt,i\alpha _{t,i}αt,i?隨著step t的不同而不同,每一個(gè)step都是不同的

顧名思義,glimpse描述了h語言編碼的整個(gè)上下文的一小部分,它被作為一個(gè)輸入到解碼器的循環(huán)單元中,這個(gè)循環(huán)單元產(chǎn)生一個(gè)輸出向量和一個(gè)新的狀態(tài)向量:

3.2.3雙向解碼器

雖然序列到序列解碼器捕獲輸出,但它只捕獲一個(gè)方向,而忽略了另一個(gè)方向。例如,一個(gè)解碼器如果按照從左到右的順序識(shí)別文本,可能很難在某些字體中決定大寫的“I”和小寫的“i”之間的第一個(gè)字母,因?yàn)樗鼈冊(cè)谝曈X上很難區(qū)分,而且解碼器對(duì)過去解碼的字母沒有記憶。這樣的單詞可能更容易被按從左到右順序工作的解碼器識(shí)別,因?yàn)槠溆嗟淖帜柑崾镜谝粋€(gè)字母是基于前面的語言的。

正如這個(gè)例子所示,反向工作的解碼器可能是互補(bǔ)的。為了充分利用兩個(gè)方向上的依賴關(guān)系,我們提出了一種雙向譯碼器,它由兩個(gè)方向相反的譯碼器組成。如圖8所示,訓(xùn)練一個(gè)解碼器從左到右預(yù)測(cè)字符,另一個(gè)從右到左預(yù)測(cè)字符。運(yùn)行這兩個(gè)解碼器后,將產(chǎn)生兩個(gè)識(shí)別結(jié)果。為了合并結(jié)果,我們簡(jiǎn)單地選擇識(shí)別得分最高的符號(hào),即所有預(yù)測(cè)符號(hào)的log-softmax得分之和。

正向編碼器預(yù)測(cè)一個(gè)結(jié)果"FLTNESS", 0.5

方向編碼器預(yù)測(cè)一個(gè)結(jié)果"SSENTIF", 0.8

所以我們選方向解碼器的結(jié)果作為最后的預(yù)測(cè)結(jié)果

3.3 Training

該模型在多任務(wù)設(shè)置下進(jìn)行端到端訓(xùn)練,目標(biāo)為

其中,y1,...,yt,..yTy_{1},...,y_{t},..y_{T}y1?,...,yt?,..yT?是真實(shí)的標(biāo)簽,
loss是從左到右和從右到左的平均損失,預(yù)測(cè)分布分別表示為p1tlandprtlp_{1tl} and p_{rtl}p1tl?andprtl?

除了localization network網(wǎng)絡(luò)外,模型中各層的權(quán)值都是初始化的。由于TPS變換是由定位網(wǎng)絡(luò)所指定的控制點(diǎn)計(jì)算得到的,一個(gè)隨機(jī)初始化的定位網(wǎng)絡(luò)會(huì)產(chǎn)生隨機(jī)放置的控制點(diǎn),這會(huì)扭曲Ir,在訓(xùn)練過程中造成不穩(wěn)定。為了解決這個(gè)問題,我們初始化了最后一個(gè)全連接層(fc2),這樣在訓(xùn)練開始時(shí)Ir就不會(huì)被扭曲。具體地說,我們將fc2的權(quán)值設(shè)置為零,并將其偏差進(jìn)行特殊設(shè)置,使得為C′=CC_{'} = CC?=C

4.1實(shí)驗(yàn)設(shè)置

4.1.1數(shù)據(jù)集

本模型在兩個(gè)合成數(shù)據(jù)集上進(jìn)行訓(xùn)練,不需要對(duì)其他數(shù)據(jù)集進(jìn)行微調(diào)。該模型在5個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試,以評(píng)估其總體識(shí)別性能。此外,我們?cè)趦蓚€(gè)不規(guī)則文本的特殊數(shù)據(jù)集上對(duì)模型進(jìn)行了測(cè)試,驗(yàn)證了模型的校正能力。根據(jù)該標(biāo)準(zhǔn),我們使用不區(qū)分大小寫的單詞準(zhǔn)確度來評(píng)估識(shí)別性能。

Synth90k是[24]中提出的合成文本數(shù)據(jù)集。該數(shù)據(jù)集包含900萬張由90k個(gè)常用英語單詞生成的圖像。文字通過隨機(jī)變換和效果呈現(xiàn)在自然圖像上。Synth90k中的每個(gè)圖像都用一個(gè)ground truth單詞進(jìn)行注釋。該數(shù)據(jù)集中的所有圖像都是用于訓(xùn)練的。

SynthText是[19]中提出的合成文本數(shù)據(jù)集。生成過程與[24]類似。但與[24]不同,SynthText的目標(biāo)是文本檢測(cè)。因此,文字被渲染成完整的圖像。我們使用ground truth單詞包圍框來裁剪單詞。

IIIT5k- words (IIIT5k)[44]包含從web上收集的3000個(gè)測(cè)試圖像。每個(gè)圖像都與一個(gè)短的、50個(gè)單詞的詞匯表和一個(gè)長(zhǎng)的、1000個(gè)單詞的詞匯表相關(guān)聯(lián)。Alexicon由groun dtruth單詞和其他隨機(jī)單詞組成。街景文本(SVT)[60]是從google街景中收集的。測(cè)試集包含647張croppedwords的圖像。SVT中的許多圖像都被噪聲、模糊和低分辨率嚴(yán)重破壞。每個(gè)圖像都與一個(gè)50個(gè)單詞的詞匯表相關(guān)聯(lián)。

ICDAR 2003 (IC03)[42]包含860張經(jīng)過過濾的裁剪文字圖像。在[60]之后,我們丟棄包含非字母數(shù)字字符或少于三個(gè)字符的單詞。每個(gè)圖像都有一個(gè)在[60]中定義的50個(gè)單詞的詞典。

ICDAR 2013 (IC13)[32]繼承了ic03的大部分圖像,并使用新圖像對(duì)其進(jìn)行了擴(kuò)展。通過刪除包含非字母數(shù)字字符的單詞來過濾數(shù)據(jù)集。數(shù)據(jù)集包含1015張圖像。沒有提供詞典。

ICDAR 2015附帶文本(IC15)是ICDAR 2015健壯閱讀大賽[31]的挑戰(zhàn)4。這一挑戰(zhàn)的特點(diǎn)是附帶的文本圖像,這是采取了一副谷歌眼鏡沒有仔細(xì)定位和聚焦。因此,數(shù)據(jù)集包含大量的正則文本。測(cè)試圖像是通過使用groundtruth單詞包圍框裁剪單詞獲得的。在[49]中提出了一種基于

SVTP (SVTP)的透視圖(perspective - perspective, SVTP),用于評(píng)價(jià)透視圖文本的識(shí)別性能。SVTP中的圖片是從google街景的側(cè)視圖中選取的。它們中的許多都被非正面視角嚴(yán)重扭曲了。該數(shù)據(jù)集由639個(gè)用于測(cè)試的croppedimages組成,每個(gè)croppedimages都繼承了來自SVT數(shù)據(jù)集的50個(gè)單詞的詞典。

CUTE80 (CUTE)是在[51]中提出的。數(shù)據(jù)集集中于彎曲文本。它包含了80張拍攝自然場(chǎng)景的高分辨率圖像。CUTE80最初是用于檢測(cè)任務(wù)的。我們裁剪帶注釋的單詞并得到288張圖片的測(cè)試集。沒有提供詞典(看樣子詞典就是標(biāo)注的意思)。

4.1.2 Text Rectification Network

在進(jìn)入整流網(wǎng)絡(luò)之前,將圖像大小調(diào)整到64x256。為了在校正采樣前保留高分辨率,我們使用了較大的輸入尺寸。采樣器輸出的圖像大小為32x100,這也是識(shí)別網(wǎng)絡(luò)的輸入大小。本地化網(wǎng)絡(luò)(localization network)對(duì)采樣到32x64的輸入圖像進(jìn)行處理。它由6個(gè)卷積層組成,內(nèi)核大小為33。前5層的每一層后面都有一個(gè)22個(gè)最大池層。輸出過濾器的數(shù)目分別為32、64、128、256、256和256。卷積層之后是兩個(gè)完全連接的層。它們的輸出單元數(shù)分別為512和2K,其中K為控制點(diǎn)數(shù)。在整個(gè)實(shí)驗(yàn)過程中,我們將k設(shè)為20。K的其他值也會(huì)導(dǎo)致類似的結(jié)果(可以改變K到類似的值)。

4.1.2Text Recognition Network

Table1給出了識(shí)別網(wǎng)絡(luò)的結(jié)構(gòu)。采用45層殘差網(wǎng)絡(luò)[20]作為卷積特征提取器。每個(gè)剩余單元由1x 1卷積和3x3卷積組成,最近的工作[23]表明了該方案的有效性。特征映射通過前兩個(gè)剩余塊中的2x2步卷積向下采樣。步幅在第四和第五剩余塊改為2x1。2 x1下采樣步幅沿水平軸保留了更多的分辨率,以便區(qū)分相鄰字符。

在剩余網(wǎng)絡(luò)的后面是兩層雙向全向網(wǎng)絡(luò)(BiLSTM)。每一層由一對(duì)包含256個(gè)隱藏單元的lstms組成。在進(jìn)入下一層之前,lstm的輸出被連接并線性投影到256維

譯碼器是注意的LSTMs。注意單元和隱藏單元的數(shù)量都是256。解碼器可以識(shí)別94個(gè)字符類,包括數(shù)字、大小寫字母和32個(gè)ASCII標(biāo)點(diǎn)符號(hào)。

當(dāng)評(píng)估協(xié)議對(duì)大小寫不敏感且不考慮大小寫時(shí),我們將解碼器輸出規(guī)范化為小寫,并刪除所有預(yù)測(cè)的標(biāo)點(diǎn)符號(hào)。

4.1.4優(yōu)化

模型從零開始訓(xùn)練。我們采用adadelta[69]作為優(yōu)化器。一個(gè)更簡(jiǎn)單的帶有動(dòng)量的SGD優(yōu)化器也將成功地訓(xùn)練模型,但精度略低。該模型由64個(gè)樣本批量訓(xùn)練,迭代100萬次。每個(gè)批處理由來自synth90k的32個(gè)示例和來自SynthText的32個(gè)示例組成。以這種方式訓(xùn)練的模型明顯優(yōu)于僅使用Synth90k訓(xùn)練的模型(例如[54]、[55])。初始學(xué)習(xí)速率設(shè)置為1.0,在步驟0.6M和0.8 m時(shí)分別衰減為0.1和0.01。雖然ADADELTAis的學(xué)習(xí)率是自適應(yīng)的,但我們發(fā)現(xiàn)經(jīng)典的學(xué)習(xí)率計(jì)劃有利于性能。

4.1.5部署

我們使用TensorFlow[1]實(shí)現(xiàn)了所提出的模型。該模型是訓(xùn)練在一個(gè)單一的NVIDIA泰坦Xp圖形卡與12GB內(nèi)存。訓(xùn)練速度約6.5 iteration/s,不到2天達(dá)到收斂。當(dāng)測(cè)試批大小為1時(shí),每幅圖像的推理速度為20ms。這種速度可以通過更大的批處理大小來提高。

4.2矯正實(shí)驗(yàn)

本文從兩個(gè)方面定量研究了文本校正的效果 定量和定性。研究了其對(duì)權(quán)值初始化的敏感性。

4.2.1Effect of Rectification

為了分析校正效果,我們研究了模型的兩個(gè)變量。第一個(gè)變體只由識(shí)別網(wǎng)絡(luò)組成,不進(jìn)行校正。為了避免其他模型部件的影響,我們還將雙向譯碼器改為單向譯碼器。第二個(gè)變體是第一個(gè)加上校正網(wǎng)絡(luò)。這兩種變體都是從零開始訓(xùn)練的,使用的訓(xùn)練設(shè)置與4.1節(jié)中描述的相同。它們的性能是在六個(gè)測(cè)試數(shù)據(jù)集中評(píng)估的,即IIIT5k、SVT、IC03、IC13、SVTP和CUTE。

表2列出了這兩種變體的結(jié)果。可以看到,校正后的模型在所有數(shù)據(jù)集上都優(yōu)于沒有校正的模型,尤其是在SVTP(+4.7%)和CUTE(+3.1%)上。由于這兩個(gè)數(shù)據(jù)集都由非正則文本組成,因此校正顯示了顯著的效果。此外,我們還構(gòu)造了一系列具有上升規(guī)則級(jí)的數(shù)據(jù)集。這是通過混合SVTP+可愛的和diiit5k(所有的例子都認(rèn)為是規(guī)則的)與不同的比例來實(shí)現(xiàn)的。所有數(shù)據(jù)集都有933個(gè)例子。圖9給出了校正改進(jìn)(有Rect.和沒有Rect.之間的精度差異)與部分不規(guī)則示例之間的關(guān)系。從圖中可以看出,糾偏效果隨著不規(guī)則程度的增加而單調(diào)增加,顯示出對(duì)不規(guī)則文本的糾偏效果。

為了進(jìn)行定性比較,表4從CUTE80和SVTPerspective對(duì)一些示例的糾正結(jié)果進(jìn)行了可視化。即使沒有對(duì)控制點(diǎn)位置的直接監(jiān)控,糾偏網(wǎng)絡(luò)也能學(xué)會(huì)將控制點(diǎn)放在文本上下邊緣附近。這些點(diǎn)在平滑的曲線上對(duì)齊,間距均勻,在校正后的圖像中幾乎不會(huì)產(chǎn)生失真或偽影。

從表4可以看出,糾偏網(wǎng)絡(luò)在透視文本上運(yùn)行效果良好。即使是在透視失真嚴(yán)重的圖像上(如“starbucks”和“storage”),認(rèn)證網(wǎng)絡(luò)也會(huì)將單詞糾正為常規(guī)單詞,大大降低了識(shí)別難度。糾錯(cuò)網(wǎng)絡(luò)也可以糾錯(cuò)彎曲的文本。例如,在單詞“羅納爾多”、“最佳”和“格魯夫”上,控制點(diǎn)被預(yù)測(cè)成弧形,文本被糾正成規(guī)則形狀。雖然校正后的圖像仍然存在失真,但識(shí)別網(wǎng)絡(luò)能夠正確識(shí)別。另一個(gè)有趣的現(xiàn)象是糾錯(cuò)傾向于扭曲文本。這種現(xiàn)象在表4中的“academy”、“entry”、“museum”、“storage”等很多例子中都有體現(xiàn)。我們推測(cè)的原因是,傾斜簡(jiǎn)化了學(xué)習(xí),因?yàn)樗鼘?dǎo)致相鄰字符有重疊的間距,因此在垂直圖像軸上引入了依賴關(guān)系。最后,我們觀察到一些控制點(diǎn)被放置在它們的圖像邊界之外,例如“城市”和“燈光”中的控制點(diǎn)。與[55]不同,我們不強(qiáng)迫控制點(diǎn)位于圖像邊框內(nèi),因?yàn)檫@樣做可能會(huì)干擾采樣網(wǎng)格并導(dǎo)致圖像失真。從表3中可以看出,雖然ASTER的校正偶爾會(huì)出現(xiàn)故障,但總的來說它產(chǎn)生的圖像失真程度要比[55]小得多。這表明,簡(jiǎn)單的修改可以顯著提高圖像質(zhì)量。、

4.2.2 Sensitivity to Weight Initialization

正確的權(quán)值初始化是訓(xùn)練認(rèn)證網(wǎng)絡(luò)順利進(jìn)行的必要條件。如3.3節(jié)所述,我們初始化了最后一個(gè)全連通層,該層的權(quán)值為零,偏差為特定值。我們將此初始化s標(biāo)識(shí)命名為identity

為了演示權(quán)重初始化的效果,圖10將identity與另一個(gè)名為random的初始化模式進(jìn)行了比較,random中所有模型層都是隨機(jī)初始化的。

identity穩(wěn)定且快
同時(shí),一個(gè)隨機(jī)初始化的模型仍然可以通過更多的訓(xùn)練迭代成功地訓(xùn)練,并最終達(dá)到非常接近的精度。我們觀察到,一個(gè)隨機(jī)初始化的模型一開始會(huì)生成經(jīng)過垃圾校正的圖像,但經(jīng)過數(shù)千次訓(xùn)練后會(huì)恢復(fù)正常

在[55]中,為了成功地訓(xùn)練模型,需要一些精心設(shè)計(jì)的權(quán)值初始化方案。而隨機(jī)初始化訓(xùn)練完全失敗。相比之下,本文的模型對(duì)8個(gè)初始化的靈敏度要低得多。它甚至可以在初始化過程中被成功地訓(xùn)練。

4.3 Experiments on Text Recognition

在本節(jié)中,我們研究了文本認(rèn)知網(wǎng)絡(luò)的幾個(gè)關(guān)鍵方面,包括它的注意機(jī)制、雙向解碼器和每個(gè)單詞長(zhǎng)度的識(shí)別性能。

4.3.1 Analysis on Attention

注意機(jī)制在認(rèn)知網(wǎng)絡(luò)中起著核心作用。根據(jù)公式5,對(duì)局部特征進(jìn)行加權(quán)組合來識(shí)別一個(gè)字符。這表明注意機(jī)制執(zhí)行隱式特征檢測(cè)。

為了了解解碼器的行為,我們提取了注意權(quán)值。即將它們可視化到圖11所示的幾個(gè)例子中。在每個(gè)圖像之上,一個(gè)注意權(quán)重矩陣在2Dmap中被可視化。映射的第t行對(duì)應(yīng)于第t解碼步驟的注意權(quán)重。除了非常短的單詞,我們可以觀察到注意力權(quán)重和字符之間的清晰對(duì)齊。這說明了該識(shí)別網(wǎng)絡(luò)的隱含特征檢測(cè)。

4.3.2Bidirectional Decoder

為了評(píng)估雙向解碼器的有效性,我們提出了三種模型變體,即L2R,它以從左到右的順序識(shí)別ext;R2L,它識(shí)別文本從右到左的順序;雙向,bidirectionaldecoder。這些變體也使用4.1節(jié)中描述的相同訓(xùn)練設(shè)置從零開始進(jìn)行訓(xùn)練。表5比較了它們的識(shí)別精度。

總的來說,L2R和R2L有相似的準(zhǔn)確性。L2R優(yōu)于IIIT5k、IC03和SVTP,而R2L優(yōu)于其余部分。這表明這兩種變體可能支持不同的數(shù)據(jù)分布。與此同時(shí),bidirectionaloutbetter在所有數(shù)據(jù)集上都優(yōu)于這兩個(gè)變體,只有一個(gè)例外,即雙向的變體更好。特別是在SVT上,雙向譯碼器的性能分別比其他兩種譯碼器高出2.8%和1.6%,驗(yàn)證了雙向譯碼器的有效性。

4.3.3 Accuracy Versus Word Length

識(shí)別網(wǎng)絡(luò)以固定大小的圖像作為輸入。盡管將圖像調(diào)整到固定大小不可避免地會(huì)導(dǎo)致圖像失真,但我們認(rèn)為它對(duì)性能的影響很小。主要原因是變形對(duì)應(yīng)變和測(cè)試數(shù)據(jù)的影響是一樣的。因此,我們的模型被訓(xùn)練來處理拉長(zhǎng)和壓縮的例子。

圖12顯示了識(shí)別精度與單詞長(zhǎng)度之間的關(guān)系。從圖中可以看出,對(duì)于長(zhǎng)度等于或小于11的單詞,其識(shí)別精度相當(dāng)均勻。超過這個(gè)長(zhǎng)度,精確度就會(huì)下降。然而,這在一定程度上是因?yàn)?#xff0c;在衡量整個(gè)單詞的準(zhǔn)確性時(shí),長(zhǎng)單詞本來就更難準(zhǔn)確預(yù)測(cè)。我們還嘗試通過比例調(diào)整大小和填充來替換固定大小的調(diào)整,但是在大多數(shù)情況下,這會(huì)導(dǎo)致性能下降。

4.4Comparison to State of the Art

最后,我們比較了我們的模型與其他最先進(jìn)的模型的性能。一些數(shù)據(jù)集提供了用于約束識(shí)別輸出的詞匯。當(dāng)給定一個(gè)詞時(shí),我們只需在編輯距離的度量下,用最近的詞替換預(yù)測(cè)的詞。

表6比較了多種方法的識(shí)別精度。我們的方法在12種方法中取得了9種最好的結(jié)果。特別是在IIIT5k和SVT上,我們的方法與以前的方法相比,識(shí)別誤差幾乎減半。與[11]和[26]相比,我們的模型只差幾個(gè)結(jié)果。但是,需要注意的是,1)[11]使用額外的字符級(jí)注釋,而ASTER不使用;2)[26]是一個(gè)約束輸出識(shí)別器。它只能在它的90k字典中識(shí)別,而ASTER是無限制的。考慮到測(cè)試數(shù)據(jù)集涵蓋了廣泛的現(xiàn)實(shí)場(chǎng)景,并且所有結(jié)果都是由一個(gè)模型產(chǎn)生的,很明顯,我們的方法在總體上是有效的。表6還列出了ASTER的兩個(gè)變體,即astera和ASTER- b。它們僅在對(duì)流網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)上有所不同。ASTER-A在所有數(shù)據(jù)集和指標(biāo)下都優(yōu)于[55],只有IIIT5k上有一個(gè)例外,它只包含常規(guī)文本。這進(jìn)一步驗(yàn)證了本文引入的擴(kuò)展的有效性。[64],同樣使用VGG,在某些數(shù)據(jù)集上性能優(yōu)于ASTER-A。然而,[64]使用帶有字符級(jí)注釋的私有訓(xùn)練數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,該方法具有良好的糾偏效果和雙向糾偏效果。通過使用整流和雙向解碼器,ASTER在所有測(cè)試數(shù)據(jù)集中都優(yōu)于表2中的With rect和雙向inTable 5中的兩個(gè)變體。由此可見,整流和雙向解碼器帶來的性能增益是相加的。

5 END-TO-END RECOGNITION

文本識(shí)別器通常與文本檢測(cè)器一起用于構(gòu)建端到端識(shí)別系統(tǒng)。通常,檢測(cè)器首先定位單詞邊界框。然后,therecognizer可以識(shí)別由框裁剪的圖像。由于松散的箱形邊界導(dǎo)致作物不完全,難以識(shí)別,因此識(shí)別性能往往受到檢測(cè)箱質(zhì)量的影響。ASTER對(duì)端到端識(shí)別系統(tǒng)的吸引力不僅在于其魯棒的識(shí)別性能,還在于其增強(qiáng)檢測(cè)能力的能力。首先,利用ASTER生成的識(shí)別分?jǐn)?shù)對(duì)檢測(cè)盒進(jìn)行過濾。其次,ASTER可以通過其整流網(wǎng)絡(luò)對(duì)檢測(cè)盒進(jìn)行整流。如前所述,ASTER傾向于預(yù)測(cè)沿著上下文本邊緣的控制點(diǎn)。從控制點(diǎn),我們可以估計(jì)一個(gè)新的,有方向的包圍框,以取代原來的檢測(cè)框。因此,ASTER可以將水平探測(cè)器轉(zhuǎn)換為定向探測(cè)器。

6.其他資料

aster論文解讀
https://www.cnblogs.com/lillylin/p/9315180.html
文本檢測(cè) git匯總:
http://www.360doc.com/content/19/0410/01/32196507_827587015.shtml
配置aster實(shí)戰(zhàn)
https://blog.csdn.net/xuanbi8560/article/details/81905692
文本檢測(cè)論文集合
https://www.cnblogs.com/lillylin/
文本檢測(cè)Git集合
https://github.com/luoqingyu/awesome-deep-text-detection-recognition
attention
https://blog.csdn.net/malefactor/article/details/50550211

總結(jié)

以上是生活随笔為你收集整理的ASTER: An Attentional Scene Text Recognizer的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。