TencentOCR 斩获 ICDAR 2021 三项冠军
作者:TencentOCR團隊
全球 OCR 最頂級賽事,TencentOCR 以絕對領先優勢斬獲三冠,騰訊技術再揚威名!
一、競賽背景
2021 年 9 月,兩年一屆的 ICDAR 競賽落下帷幕,這是文字識別(OCR)領域全球最頂級賽事。TencentOCR 團隊在本屆比賽中參加了視頻文字識別競賽,并包攬該賽道全部 3 項冠軍,成績遙遙領先。這也是繼 2017 年團隊勇奪 4 項官方認證冠軍[1]、2019 團隊勇奪 7 項冠軍后[2],再創佳績,同時也標志著騰訊 OCR 技術穩居國際第一流水準。
國際文檔分析與識別大會 ICDAR( International Conference on Document Analysis and Recognition)自 1991 年開始,每兩年一屆,今年為第十六屆。自 2003 年大會開始設立技術競賽,ICDAR 競賽因其極高技術難度和強大實用性,一直是各大科研院校、科技公司的競逐焦點。與賽后非正式刷榜不同,ICDAR 官方認證的正式競賽采用全新數據集,且賽期內不公布參賽團隊信息,限制提交時間和次數,屬于高難度“盲打”,吸引國內外眾多隊伍參賽。
二、賽題介紹
ICDAR SVTS(場景視頻文本定位)競賽由海康威視、復旦大學和浙江大學聯合出題,主辦方提供了涵蓋 21 個室內外真實場景的 129 段視頻。SVTS 競賽設置了 3 個任務:視頻文本檢測、視頻文本跟蹤、視頻文本端到端識別。由于環境干擾(相機抖動、運動模糊、光照變化等),從視頻幀中檢測、跟蹤、識別文本比靜態圖片 OCR 任務需要更高的魯棒性,挑戰性極高。
(圖1)ICDAR-SVTS競賽示意幀三、競賽成績
在 SVTS 競賽的 3 個任務中,騰訊 OCR 以大幅度領先獲得全部冠軍。
任務 1 視頻文本檢測
任務 1 旨在獲取視頻幀中的文本框位置,每個文本框的 GT 由 4 個坐標點組成,評價指標是 F-score,團隊以領先第二名 3.43%的成績取得冠軍。
(圖2)視頻文本檢測:冠軍證書任務 2 視頻文本跟蹤
任務 2 旨在跟蹤視頻中所有文本流,將幀與幀之間屬于同一個文本的檢測框聚合起來,評價指標是 ATA,我們以領先第二名 5.62%的成績取得冠軍。
(圖3)視頻文本跟蹤:冠軍證書任務 3 視頻文本端到端識別
任務 3 旨在評估視頻文本識別的端到端性能,任務要求在每一幀上正確檢測文本,在視頻幀上正確跟蹤,并在序列級別正確識別,評價指標是 F-score,我們以領先第二名 5.53%的成績取得冠軍。
(圖4)視頻文本端到端識別:冠軍證書四、算法介紹
1. 文字檢測
針對復雜自然場景下的視頻文本檢測任務,團隊在 Cascade Mask R-CNN 算法的基礎上設計了一種自頂向下實例分割的多方向文本的檢測方法。在特征提取網絡部分,我們訓練多個主干網絡,包括 HRNet-W48,Res2Net101,Resnet101 和 SENet101,并使用了 Syn-BN 和可變形卷積網絡 DCN 等技術來增強特征。同時,經典的 RPN 網絡替換成為 GA-RPN 的方法提升模型性能。為更好解決多尺度的問題,在模型 neck 部分我們嘗試了 PAFPN、BiFPN 和 FPG 等一系列特征金字塔網絡。在 R-CNN 部分,我們針對任務重新設計了 IoU 閾值和每個 stage 的權重,采用了 4 個級聯的網絡來精準預測文字位置。此外,借鑒 Double-Head R-CNN 的思想,我們把 R-CNN 網絡的回歸和分類兩個網絡分支解耦開。
為進一步增強模型的性能,我們引入更多的監督信息讓網絡去學習,首先增加了一個基于 CTC 的文字識別網絡分支進行端到端的訓練讓模型更好地學習文字特征,其次引入一個全局的語義分割網絡分支來強化特征的表示。最后,模型基于網絡輸出的 mask 分割結果采用多邊形非極大抑制(Soft Polygon NMS)來輸出文本區域框。在網絡前向預測階段,我們發現模型受視頻的模糊程度影響很大,設計了一種多尺度+翻轉+模糊增加的 TTA 策略,有效提升了測試的準召指標。同時,在將檢測結果傳給后續文字跟蹤和端到端識別任務的同時,我們也使用這兩個任務的輸出結果設計了檢測框篩選算法來提升最后的精度。
(圖5)文本檢測算法2. 文字跟蹤
在文字跟蹤方面,我們提出了一種基于 DeepSort 的多度量文本跟蹤方法,使用 4 個不同的度量來計算每條軌跡與每個新檢測框之間的匹配度,包括檢測框匹配度,檢測框表觀相似度,文本相似度和一種新設計的檢測框鄰域相似度。這些度量被歸一化加權求和用作當前檢測框和已有軌跡之間的匹配損失函數,使用 Kuhn-Munkres 算法計算最優匹配。最后采用后處理和集成策略,通過替換鄰近檢測框,使得替換后軌跡文本穩定程度提升,來減少 ID-Switch 跟蹤錯誤,最后自動移除低文本置信度的軌跡來提升精度。
(圖6)視頻文本跟蹤算法3. 端到端文字識別
在文字識別方面,我們采用了基于 CTC 和基于 2D Attention 的混合模型。我們的編碼網絡由卷積網絡和上下文提取模塊組成,我們首先通過 VGGNet、ResNet50/101、SEResNeXt 等卷積網絡提取視覺特征,然后通過 BiLSTM、BiGRU 和 Transformer 提取上下文信息。針對基于 CTC 的算法,我們還開發了可端到端訓練的內嵌式語言模型。在端到端階段,我們采用多類識別算法對輸入跟蹤軌跡的所有文本進行預測,然后使用基于文本置信度和長度的方法集成并計算結果得分,取分數最高的結果作為軌跡的文本結果。最后,我們移除低分和包含無關字符的軌跡以提高最終精度。
(圖7)文本端到端識別算法五、總結
TencentOCR 團隊是騰訊內部專業研發 OCR 技術的團隊,于 2021 年 TEG OCR 聯合公司兄弟團隊成立了 TencentOCR Oteam,團隊在文本識別領域上已經深耕細作多年,自研的基于深度學習方法的文本檢測與識別技術處于業界領先水平,已在全球最權威 ICDAR 競賽中連續三屆斬獲共 14 項官方認證冠軍。國際頂級競賽是技術水平的試金石和騰訊技術影響力的證明,同樣重要的還有技術應用與落地。騰訊 OCR 技術,憑借高精準度、高穩定性以及專業服務伙伴的理念,已支持公司內所有 BG 的數百個業務場景,如騰訊廣告、微信、QQ、騰訊云、騰訊視頻、騰訊信息流產品、騰訊會議等,并獲得廣泛好評。未來,團隊將繼續在 TencentOCR Oteam 的框架下,深度協同,保持騰訊 OCR 在業界的領先水平。
(圖8)TencentOCR參賽團隊參考目錄:
https://mp.weixin.qq.com/s/_HmsLW4Juwo6RzjlRe6MhA
https://mp.weixin.qq.com/s/ai2ZJdTuG9pD5cijssx6SQ
歡迎點擊下方視頻
關注騰訊程序員視頻號
總結
以上是生活随笔為你收集整理的TencentOCR 斩获 ICDAR 2021 三项冠军的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 指标统计:基于流计算 Oceanus(F
- 下一篇: 从根本上了解异步编程体系