日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

(OCR论文)Mask TextSpotter V3机翻

發布時間:2023/11/27 生活经验 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 (OCR论文)Mask TextSpotter V3机翻 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》,ECCV 2020,華科白翔組+Facebook AI

注意:以下主要是機器翻譯+小量人工校正。

摘要

近年來,檢測與識別一體化的端到端可訓練的場景文本識別方法取得了很大進展。然而,目前大多數任意形狀的場景文本定位使用區域建議網絡(RPN)來產生建議。RPN在很大程度上依賴于手工設計的錨點,其方案用軸向對齊的矩形表示。前者在處理極端高寬比或不規則形狀的文本實例時表現出困難,而后者通常在密集朝向文本的情況下,將多個相鄰實例包含到單個提案中。為了解決這些問題,我們提出了Mask TextSpotter v3,一種端到端可訓練的場景文本識別器,它采用了分割建議網絡(SPN)代替RPN。我們的SPN是無錨的,可以準確地表示任意形狀的建議。因此,在檢測極端高寬比或不規則形狀的文本實例時,它優于RPN。此外,SPN產生的精確建議允許掩蔽的RoI特征用于解耦鄰近的文本實例。因此,我們的Mask TextSpotter v3可以處理極端高寬比或不規則形狀的文本實例,并且其識別精度不會受到附近文本或背景噪聲的影響。具體來說,我們在旋轉ICDAR 2013數據集(旋轉魯棒性)上比最先進的方法性能高21.9%,在全文本數據集(形狀魯棒性)上比最先進的方法性能高5.9%,在MSRA-TD500數據集上比最先進的方法性能高(長寬比魯棒性)。代碼可在https://github.com/MhLiao/MaskTextSpotterV3獲得。

關鍵詞:場景文本,檢測,識別。

短評:

  1. 論文針對的問題:檢測+識別的端到端OCR基本用了RPN,但是其結構在OCR領域有兩個問題,第一,其難以解決極端高寬比、不規則形狀文本情況。第二,針對密集文本,也容易將多個實例包含在單個框中。
  2. 論文的解決方案:設計分割建議網絡SPN來解決RPN無法解決的問題。

1 介紹

在野外閱讀文本是非常重要的,有豐富的現實應用,包括Photo OCR[2],閱讀菜單和地理位置。用于此任務的系統通常包括文本檢測和識別組件,其中文本檢測的目標是本地化文本實例及其邊界框,而文本識別的目標是通過將其轉換為字符標簽序列來識別被檢測的文本區域。場景文本識別/端到端識別是一個結合了這兩個任務的任務,需要檢測和識別。

場景文本閱讀的挑戰主要在于場景文本實例的不同方向、極端寬高比和不同形狀,這給文本檢測和識別帶來了困難。因此,旋轉魯棒性高寬比魯棒性形狀魯棒性對于精確的場景文本觀測者是必要的。旋轉魯棒性在場景文本圖像中很重要,其中文本不能假定與圖像軸對齊。高寬比的健壯性對于非拉丁文本尤其重要,因為文本通常是用很長的文本行而不是單詞來組織的。形狀魯棒性是處理不規則形狀文本的必要條件,經常出現在標識中。

最近的一個流行趨勢是將文本檢測和識別結合到一個統一的模型中進行場景文本識別[3,20],因為這兩個任務自然是密切相關的。一些這樣的場景文本檢測器被設計用于檢測和識別多面向文本實例,如Liu等人[27]和He等人[15]。Mask TextSpotter v1 [30], Qin等人[34]和Mask TextSpotter v2[21]可以進一步處理任意形狀的文本實例。Mask TextSpotter系列采用Region Proposal Network (RPN)[35]生成提案,提取提案的RoI特征進行檢測識別。Qin et al.[34]直接使用Mask R-CNN[11]進行檢測,[11]也使用RPN產生提案。這些方法在旋轉魯棒性和形狀魯棒性方面取得了很大的進展。然而,這些方法的架構并沒有被設計成完全健壯的旋轉、長寬比和形狀。盡管這些方法可以處理不同方向和不同形狀的分散文本實例,但由于RPN的限制,它們可能無法處理密集方向的文本實例或極端寬高比的文本行。

RPN的局限性主要體現在兩個方面:(1)手動預先設計的錨點是使用軸向對齊的矩形來定義的,不能輕易匹配極端寬高比的文本實例。(2)當文本實例密集放置時,生成的軸向矩形方案可以包含多個相鄰的文本實例。從圖1可以看出,Mask TextSpotter v2[21]生成的提案相互重疊,因此其RoI特征包含多個相鄰文本實例,導致檢測和識別錯誤。如圖1所示,錯誤可以是一個或多個字符,如果給出一個強詞典,可能不會體現在性能中。因此,不使用詞匯或使用通用詞匯的評價更具說服力。

圖1所示。RPN和SPN的比較。左圖:最先進的,基于rpn的文本偵測器(Mask TextSpotter v2 [21]);右圖:基于spn的文本偵測器(Mask TextSpotter v3)。雖然RPN方案可以很好地定位于軸對稱矩形,但其RoI特征包含多個文本實例,導致檢測/識別不準確。通過比較,我們的SPN方案更加準確,因此每個RoI特征只產生一個文本實例,從而獲得準確的檢測/識別結果。roi以圖像區域表示。

在本文中,我們提出了一個分割建議網絡(SPN),旨在解決基于rpn的方法的局限性。我們的SPN是無錨的,并給出了提案的精確多邊形表示。不受預先設計的錨點的限制,SPN可以處理極端高寬比或不規則形狀的文本實例。然后,通過將我們提出的RoI硬掩蔽應用到RoI特征中,可以充分利用它的準確建議,從而抑制鄰近的文本實例或背景噪聲。這對于密集定向或形狀不規則的文本是有益的,如圖1所示。因此,通過在Mask TextSpotter v2中采用SPN,提出了Mask TextSpotter v3。

我們的實驗表明,?Mask TextSpotter v3顯著提高了對旋轉、高寬比和形狀的魯棒性。在旋轉的ICDAR 2013數據集上,圖像以不同角度旋轉,我們的方法在檢測和端到端識別方面都超過了最先進的21.9%。在包含各種形狀文本實例的全文本數據集[4]上,我們的方法在端到端識別任務上比目前最先進的方法性能高出5.9%。我們的方法還在MSRATD500數據集[45]上實現了最先進的性能,該數據集標記了具有極端寬高比的文本行,以及ICDAR 2015數據集,該數據集包含許多具有通用詞典的低分辨率小文本實例。總之,我們的貢獻有三方面:

  1. 我們描述Segmentation Proposal Network (SPN),以準確表示任意形狀的建議。無錨SPN克服了RPN在處理極端寬高比或不規則形狀文本時的局限性,并提供了更準確的建議來提高識別的魯棒性。據我們所知,它是第一個端到端可訓練文本定位的任意形狀提議生成器。
  2. 我們提出了hard RoI masking,將多邊形算法應用于RoI特征,有效地抑制背景噪聲或相鄰文本實例。
  3. 我們提出的Mask TextSpotter v3顯著提高了對旋轉、寬高比和形狀、跳動/實現的魯棒性。

2 相關工作

目前的文本識別方法大致可以分為兩類:(1)兩階段場景文本識別方法,即訓練檢測器和識別器分開;(2)端到端可訓練的場景文本識別方法,將檢測和識別集成到一個統一的模型中。

兩階段場景文本識別方法使用兩個獨立的網絡進行檢測和識別。Wang et al.[41]試圖用cnn對字符進行檢測和分類。Jaderberg等人[17]提出了一種場景文本識別方法,該方法由提案生成模塊、用于過濾提案的隨機森林分類器、用于精煉提案的基于cnn的回歸模塊和用于識別的基于cnn的單詞分類器組成。TextBoxes[23]和TextBoxes++[22]將其提出的場景文本檢測器與CRNN[37]結合,通過整合檢測置信度和識別置信度重新計算置信度。Zhan等[46]提出將多模態空間學習應用于場景文本檢測識別系統。

端到端可訓練場景文本識別近年來,由于文本檢測和識別的互補性,端到端可訓練場景文本識別方法在這一領域占據主導地位。Li等人將水平文本檢測器和序列到序列文本識別器集成到一個統一的網絡中。同時,Bu sta等[3]使用了類似的架構,其檢測器可以處理多面向文本實例。之后,Liu等[27]和He等[15]分別采用了更好的檢測和識別方法,進一步提高了性能。

Mask TextSpotter v1[30]是首個端到端可訓練的任意形狀場景文本spotter,由基于Mask R-CNN[11]的檢測模塊和用于識別的字符分割模塊組成。在Mask TextSpotter v1[30]之后,幾個任意形狀的場景文本spot同時出現。Mask TextSpotter v2[21]進一步擴展了Mask TextSpotter v1,通過應用空間注意模塊進行識別,緩解了字符級標注的問題,顯著提高了性能。Qin等人的[34]還結合了Mask R-CNN檢測器和基于注意力的識別器來處理任意形狀的文本實例。Xing等人提出同時檢測/識別字符和文本實例,利用文本實例檢測結果對字符進行分組。TextDragon[7]通過分組和解碼一系列本地區域及其中心線來檢測和識別文本實例。

Qin等[34]利用mask R-CNN檢測器的mask map對RoI特征進行RoI掩蔽,有利于識別。但是,采用RPN生成提案的檢測器可能會產生不準確的掩碼映射,導致進一步的識別錯誤。與Qin et al.[34]不同的是,我們的Mask TextSpotter v3獲得了準確的提案,并將我們的硬RoI掩蔽應用于RoI特征上,用于檢測和識別模塊。因此,它可以準確地檢測和識別密集方向/彎曲文本實例。基于分割的場景文本檢測器Zhang等[47]首先使用FCN獲取文本區域的顯著圖,然后結合顯著圖和字符成分(使用MSER)估計文本行假設。最后,另一個FCN對每個字符的質心進行預測,以消除錯誤假設。他等人提出了級聯卷積文本網絡(CCTN)用于文本中心線和文本區域。PSENet[42]采用逐級尺度擴展算法從多尺度分割地圖中得到邊界盒。DB[24]提出了一種分段網絡的可微二值化模塊。與以往采用多個線索或額外模塊進行檢測任務的基于分割的場景文本檢測器相比,我們的方法側重于基于分割網絡的端到端場景文本識別模型的提案生成。

3 方法

Mask TextSpotter v3包括ResNet-50[12]骨干,用于生成建議的分割建議網絡(SPN),用于提煉建議的Fast R-CNN模塊[8],用于準確檢測文本實例分割模塊,字符分割模塊和用于識別的空間注意模塊。Mask TextSpotter v3的流水線如圖2所示。該方法提供了多邊形表示,并消除了感興趣區域特征的附加噪聲,從而獲得了準確的檢測和識別結果。

圖2所示。Mask TextSpotter v3概述。‘F’:融合特征圖用于分割。我們使用原始圖像區域來表示roi,以便更好地顯示。

3.1 ?Segmentation proposal network

概述:

  1. ?我么的SPN采用U-net結構,而RPN通常采用FPN結構。
  2. F結構是?concatenates feature maps,F大小是H/4 * W/4

3.2 Hard RoI masking

由于自定義RoI Align操作符只支持軸對齊的矩形邊界框,我們使用多邊形建議的最小軸對齊的矩形邊界框來生成RoI特征,以保持RoI Align操作符的簡單性。

Qin等人[34]提出了RoI掩蔽,該掩蔽將掩蔽概率映射與RoI特征相乘,其中掩蔽概率映射由mask R-CNN檢測模塊生成。然而,掩碼概率圖可能是不準確的,因為它們是由RPN的建議預測。例如:它可以包含密集面向文本的多個相鄰文本實例。在這種情況下,我們為提案設計了精確的多邊形表示,因此我們可以通過我們提出的硬RoI掩蔽直接將提案應用到RoI特征上。

硬RoI掩碼將二元多邊形掩碼與RoI特征相乘,以抑制背景噪聲或鄰近文本實例,其中多邊形掩碼M表示一個軸向對齊的矩形二值映射,多邊形區域內所有值為1,多邊形區域外所有值為0。假設R0為RoI特征,M為多邊形掩模,大小為32 32,則掩模的RoI特征R可計算為R = R0 M,其中表示按元素依次相乘。M可以通過將多邊形提議區域填充為1,并將多邊形外的值設置為0來輕松生成。我們在第4.7節報告了對硬RoI掩蔽的消融研究,其中我們將提出的硬RoI掩蔽與Qin等人[34]中的RoI掩蔽等其他算子進行了比較。

采用硬掩蔽后的RoI特征抑制了背景區域或相鄰文本實例,顯著降低了檢測和識別模塊的困難和錯誤。

3.3 Detection and recognition

我們主要采用Mask TextSpotter v2[21]文本檢測和識別模塊的設計,原因如下:(1)Mask TextSpotter v2是目前最先進的具有競爭力的檢測和識別模塊。(2)由于Mask TextSpotter v2是基于rpn的場景文本檢波器中的代表性方法,我們可以比較我們的方法來驗證我們所提出的SPN的有效性和魯棒性。

在檢測方面,將RoI硬掩蔽產生的掩蔽特征輸入Fast R-CNN模塊進一步細化定位,并將文本實例分割模塊進行精確分割。采用字符分割模塊和空間注意模塊進行識別。

3.4 Optimization

概述:

  1. L = Ls + α1Lrcnn + α2Lmask,其中Ls是SPN損失,α1和α2默認為1。
  2. 采用dice loss(骰子的損失)。

4 實驗

我們評估了我們的方法,在不同的標準場景文本基準上測試了四種變體的健壯性:旋轉、縱橫比、形狀和小文本實例。我們進一步提供了我們的硬RoI掩蔽的消融研究。

4.1 數據集

SynthText[9]是一個包含800k文本圖像的合成數據集。它為單詞/字符邊界框和文本序列提供注解。

旋轉ICDAR 2013數據集(RoIC13)由ICDAR 2013數據集[19]生成,其圖像聚焦于感興趣的文本內容。文本實例位于水平方向,并通過與軸對齊的矩形框進行標記。給出了字符級的分段注釋,因此我們可以得到字符級的邊界框。該數據集包含229張訓練圖像和233張測試圖像。為了測試旋轉的穩健性,我們創建旋轉的ICDAR 2013數據集,通過旋轉一些特定角度的ICDAR 2013基準測試集中的圖像和注釋,包括15、30、45、60、75和90。由于ICDAR 2013數據集中所有文本實例都是水平方向的,我們可以很容易地控制文本實例的方向,并找到性能和文本方向之間的關系。我們在ICDAR 2015數據集中使用了評估協議,因為ICDAR 2013中的評估協議只支持軸對齊的邊界框。

MSRA-TD500數據集[45]是一個包含中英文文本的多語言場景文本檢測基準,包括300幅訓練圖像和200幅測試圖像。文本實例是在文本行級別注釋的,因此有許多文本實例具有極端的寬高比。此數據集不包含識別注釋。

全文本數據集[4,5]包括1,255張訓練圖像和300張測試圖像。它提供了各種形狀的文本實例,包括水平形狀、面向形狀和曲線形狀,這些形狀用多邊形邊界框和轉錄進行注釋。請注意,盡管Total-Text數據集中提供了字符級注釋,但我們并不使用它們與以前的方法進行公平比較[31,21]。

ICDAR 2015數據集(IC15)[18]由1000幅訓練圖像和500幅測試圖像組成,使用四邊形邊界框標注。大多數圖像都是低分辨率的,并且包含小的文本實例。

4.2 實現細節

為了與Mask TextSpotter v2[21]進行公平比較,我們使用了下面描述的相同的訓練數據和訓練設置。數據增強緊跟Mask TextSpotter v2 3的正式實現,包括多尺度訓練和像素級增強。由于我們提出的SPN可以處理任意形狀和方向的文本實例而不產生沖突,因此我們采用了一種更激進的旋轉數據擴充。

輸入圖像以[90,90]的角度范圍隨機旋轉,而原來的Mask TextSpotter v2使用的角度范圍是[30,30]。注意,Mask TextSpotter v2是用與我們在RoIC13數據集上的實驗相同的旋轉增強訓練的。

模型采用SGD優化,質量衰減為0.001,動量為0.9。它首先使用SynthText進行預訓練,然后使用SynthText、ICDAR 2013數據集、ICDAR 2015數據集、sccut數據集[48]和totaltext數據集的混合進行微調,用于250k迭代。對于每個8個小批量數據,這些數據集之間的采樣比設置為2:1:2:1:1:1。

在訓練前,初始學習率為0.01,然后分別在100k次和200k次時降至十分之一。在微調過程中,我們采用相同的訓練方案,初始學習率為0.001。我們選擇250k迭代的模型權值進行預處理和微調。在推斷期間,輸入圖像的短邊在RoIC13數據集上被調整為1000,在IC15數據集上被調整為1440,保持寬高比。

4.3 旋轉的魯棒性

我們通過在RoIC13數據集上進行實驗來測試旋轉魯棒性。我們比較了提出的Mask TextSpotter v3和兩種最先進的方法Mask TextSpotter v2 3和CharNet 4,以及它們的官方實現。為了進行公平的比較,Mask TextSpotter v2使用與我們相同的數據和數據增強進行訓練。對RoIC13數據集的一些定性比較如圖4所示。

圖4所示。RoIC13數據集的定性結果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3。更多的結果在補充

我們對CharNet使用帶有大主干(Hourglass-88[33])的預訓練模型,因為官方實現不提供ResNet-50主干。請注意,CharNet的官方預訓練模型是用不同的訓練數據進行訓練的。因此,不適合直接與Mask TextSpotter v3進行性能比較。但是,我們可以觀察到在不同的旋轉角度下性能的變化。當旋轉角度較大時,CharNet的檢測和端到端識別性能急劇下降。

圖4.3所示,當旋轉角度分別為30、45、60時,Mask TextSpotter v2的檢測性能急劇下降。相比之下,Mask TextSpotter v3的檢測結果在不同的旋轉角度下更加穩定。Mask TextSpotter v3和Mask TextSpotter v2之間的最大性能差距發生在旋轉角度為45時。如表1所示,在45度角時,Mask TextSpotter v3的Precision, Recall,F-measure方面比Mask TextSpotter v2高出26.8%,18.0%和22.0%。注意,對于0和90,這兩種方法獲得幾乎相同的結果是合理的,因為0表示沒有旋轉,并且當旋轉角度為90時,邊界框也是軸對齊的矩形。

表1。RoIC13數據集的定量結果。評估協議與IC15數據集中的協議相同。端到端識別任務在不使用詞典的情況下進行評估。*CharNet測試與正式發布的預培訓模型;Mask TextSpotter v2 (MTS v2)與Mask TextSpotter v3 (MTS v3)使用相同的旋轉增強訓練。P、R和F表示精度、召回率和F-度量。端到端識別簡稱E2E。更多的結果在補充中

端到端識別結果的趨勢與檢測結果相似,如圖4.3所示。Mask TextSpotter v2和Mask TextSpotter v3在旋轉角度為30、45、60時,性能差距特別大。掩模TextSpotter v3超過掩模TextSpotter v2超過19.2%的f測量與旋轉角度45和60。45旋轉角度的詳細結果列在表1中,其中Mask TextSpotter v3達到22.1,21.0,和21.9的性能提高相比,之前的最先進的方法Mask TextSpotter v2。

對檢測任務和端到端識別任務的定性和定量結果證明了Mask TextSpotter v3的旋轉魯棒性。原因是Mask TextSpotter v2中使用的RPN在處理密集面向文本實例時會導致檢測和識別錯誤。相比之下,在這種情況下,該SPN可以生成準確的提案,并通過硬RoI掩蔽排除相鄰文本實例。更多的定性和定量結果在補充部分提供。

4.4 高寬比穩健性

在MSRATD500數據集上的實驗結果驗證了高寬比的魯棒性,該數據集包含大量高寬比文本行。由于沒有識別注釋,我們禁用識別模塊,只在檢測任務上進行評估。我們的定性和定量結果如圖5和表2所示。

圖5所示。MSRA-TD500數據集的定性結果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3

表2。MSRA-TD500數據集的定量檢測結果

盡管Mask TextSpotter v2是目前最先進的端到端識別方法,但由于RPN的限制,它不能檢測長文本行。與Mask TextSpotter v2相比,Mask TextSpotter v3實現了9.3%的性能增益,證明了其在處理極端寬高比文本行方面的優越性。此外,Mask TextSpotter v3甚至優于為文本行檢測設計的最先進的方法[29,1,38],進一步顯示了其對寬高比變化的魯棒性。

4.5 形狀的魯棒性

形狀變化的魯棒性通過totaltext數據集上的端到端識別性能進行評估,該數據集包含各種形狀的文本實例,包括水平、面向和彎曲形狀。一些定性結果如圖6所示,我們可以看到我們的方法獲得了比Mask TextSpotter v2更準確的檢測和識別結果,特別是在不規則形狀或相鄰字符之間有較大空間的文本實例上。從表3中所列的定量結果可以看出,在沒有提供詞典的情況下,我們的方法在F-measure方面比Mask TextSpotter v2高出5.9%。定性和定量結果均表明,該方法對形狀變化具有較好的魯棒性。

圖6所示。totaltext數據集的定性結果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3。紅色背景下的黃色文本是一些不準確的識別結果。只有不準確的識別結果被可視化

表3。totaltext數據集的端到端定量識別結果。“沒有”意味著沒有詞典的認可。Full dictionary包含測試集中的所有單詞。表中的值是f值。評估協議與Mask TextSpotter v2中的相同

4.6 小文本實例的健壯性

IC15數據集的挑戰主要在于低分辨率和小文本實例。如表4所示,Mask TextSpotter v3在所有使用不同詞匯的任務中都優于Mask TextSpotter v2,說明了我們的方法在處理低分辨率圖像中的小文本實例方面的優越性。

雖然TextDragon[7]在一些使用強/弱詞典的任務上取得了更好的結果,但我們的方法在通用詞典上的表現大大優于它,分別為7.1%和9.0%。我們認為,在大多數現實世界的應用程序中,不存在只有100/1000+單詞的強/弱詞匯表,因此使用一個90k單詞的通用詞匯表的性能更有意義,也更具有挑戰性。無論如何,我們方法中基于注意的識別器可以學習語言知識,而TextDragon中基于ctc的識別器在字符預測方面更加獨立。Mask TextSpotter v3較少依賴于強詞典的校正,這也是其優勢之一。

表4。基于F-measure的IC15數據集的定量結果。S、W和G分別表示強、弱和屬類詞匯的識別。括號中的值(例如1600和1400)表示輸入圖像的短邊。請注意,在大多數現實世界的應用程序中,不存在只有100/1000以上單詞的強/弱詞匯表。因此,90k詞的通用詞典的性能更有意義

4.7 燒蝕研究

將基于多邊形的建議應用于RoI特性是很重要的。這種操作符有兩種屬性:直接/間接和軟/硬。直接/間接是指直接使用分割/二進制地圖或通過附加層;Soft /hard表示軟概率掩碼映射,取值為[0,1]或二進制多邊形掩碼映射,取值為0或1。我們對四種組合進行了實驗,結果表明,我們提出的硬RoI掩蔽(直接-硬)是簡單的,但達到了最好的性能。結果和討論在補充中。

4.8 局限性

盡管面具TextSpotter v3是更健壯的旋轉文本變化比現有的先進的場景文本觀察員,它仍然遭受輕微的性能干擾一些極端的旋轉角度,例如90年,圖4.3所示,由于很難識別器來判斷文本序列的方向。在未來,我們計劃使識別器對這種旋轉更加魯棒。

5 結論

我們提出Mask TextSpotter v3,一個端到端可訓練的任意形狀場景文本spotter。它引入了SPN來生成提案,用精確的多邊形表示。由于更精確的建議,Mask TextSpotter v3在檢測和識別旋轉或不規則形狀的文本實例時比以前使用RPN生成建議的任意形狀場景文本探測器更健壯。我們在不同旋轉角度的ICDAR 2013數據集、長文本行的MSRA-TD500數據集和各種文本形狀的totaltext數據集上的實驗結果表明了對旋轉、寬高比和Mask TextSpotter v3形狀變化的魯棒性。此外,在IC15數據集上的結果表明,提出的Mask TextSpotter v3在小文本實例檢測和識別方面也具有魯棒性。我們希望所提出的SPN可以將OCR的應用擴展到其他具有挑戰性的領域[10],并為用于其他對象檢測/實例分割任務的提案生成器提供見解。

?

?

?

?

?

總結

以上是生活随笔為你收集整理的(OCR论文)Mask TextSpotter V3机翻的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。