场景文字识别论文阅读
由粗到細(xì)的注意力機(jī)制
Image-to-Markup Generation with Coarse-to-Fine Attention
圖片的多層卷積網(wǎng)絡(luò)+結(jié)合了多行循環(huán)網(wǎng)絡(luò)模型的encoder+基于注意力機(jī)制的循環(huán)decoder
CNN 輸出 進(jìn)入 行encoder,生成特征灰色網(wǎng)格,虛線指出token的中心,藍(lán)色是粗粒度注意力選出的符號(hào)0的支撐集
成就:減少注意力開支
全柵格encoder:不一定從左到右
由一個(gè)解決image captioning的模型改編而來,但添加了row encoder
模型
具體實(shí)現(xiàn)
1 CNN卷積
多層卷積穿插最大池化,沒有使用最終全連接(因?yàn)橄胧褂肅NN特征的局部信息,視覺注意力)
2 row encoder
傳統(tǒng)使用CTC(分割字母,得到剪枝的所有可能結(jié)果并預(yù)測(cè)概率)
對(duì)OCR至關(guān)重要,定位相對(duì)位置
使用的LSTM模型(RNN的一種)
位置嵌入:可訓(xùn)練的初始隱藏層,捕捉列信息【?】
3 decoder
在[decoder RNN]上層有[條件語言模型]
計(jì)算 P(預(yù)測(cè)值 | 過去decoder結(jié)果、特征V) = 激活函數(shù)(學(xué)習(xí)到的矩陣Ot)
Ot = 激活函數(shù) (學(xué)到的矩陣(RNN歷史記錄向量*ct))
ct:上下文注意力。上下文:對(duì)源的特征的期望
4 注意力機(jī)制
標(biāo)準(zhǔn)、分類、由粗到細(xì)
基礎(chǔ) 連接主義文本提議網(wǎng)絡(luò)
Detecting Text in Natural Image with Connectionist Text Proposal Network
ECCV 2016
https://github.com/eragonruan/text-detection-ctpn
目標(biāo)
方法
- CPTR網(wǎng)絡(luò):由卷積網(wǎng)絡(luò)、特征映射圖組成。卷積采用由VGG16(遷移學(xué)習(xí))網(wǎng)絡(luò)結(jié)構(gòu)
- VGG16使用的層:
- RNN:帶反饋的、可以利用先前知識(shí)的CNN,利用文本序列性特性
- 層使用的神經(jīng)元:LSVM:可以學(xué)習(xí)長(zhǎng)期依賴信息的RNN。只有一些少量的線性交互
- 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN):不僅考慮過去知識(shí),還考慮未來
- RNN:帶反饋的、可以利用先前知識(shí)的CNN,利用文本序列性特性
- 非極大值抑制
結(jié)果
CTPN的計(jì)算效率為0.14s每張圖像
分割 實(shí)例分割檢測(cè)場(chǎng)景文本
PixelLink: Detecting Scene Text via Instance Segmentation
AAAI 2018
https://github.com/ZJULearning/pixel_link
VGG16通過像素二分類劃分,直接提取邊框
扭曲文字識(shí)別
TextSnake A Flexible Representation for Detecting Text of Arbitrary Shapes
ECCV2018
https://github.com/princewang1994/TextSnake.pytorch
論文介紹詳細(xì),甚至包括網(wǎng)絡(luò)調(diào)參細(xì)節(jié)、batch設(shè)計(jì)和GPU設(shè)計(jì)等
目標(biāo)
識(shí)別以曲線方式分布的文字
方法
數(shù)據(jù)
該文提出了一種新的文字區(qū)域表示方法,沒有現(xiàn)成數(shù)據(jù)集,需要自己制作標(biāo)簽(區(qū)域和中心線)
損失函數(shù)
損失 = 區(qū)域和中心線的分類損失(交叉熵,類似極大似然,取概率最大的類分類) + r sin cos等幾何屬性的回歸損失(smooth1Loss,一個(gè)更優(yōu)的均方誤差函數(shù))
評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)
召回率:度量有多個(gè)正例被分為正例
精度:表示被分為正例的示例中實(shí)際為正例的比例。
F:兩者調(diào)和 當(dāng)F1較高時(shí)則能說明試驗(yàn)方法比較有效
語義增強(qiáng)
SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
CVPR2020
https://github.com/Pay20Y/SEED
目標(biāo)
識(shí)別出單詞并進(jìn)行矯正,應(yīng)對(duì)諸如圖像模糊、光照不均、字符不完整等諸多挑戰(zhàn)
發(fā)展歷程
步驟
從一個(gè)預(yù)先訓(xùn)練好的語言模型中獲得詞語嵌入,并計(jì)算訓(xùn)練過程中語義信息和詞語嵌入之間的損失。通過這種方式,語義信息包含更豐富的語義,
然后預(yù)測(cè)的語義信息被用來指導(dǎo)解碼過程。因此,解碼過程可以被限制在一個(gè)語義空間內(nèi),識(shí)別性能會(huì)更好
1)編碼器包括 CNN骨干和 RNN 用于提取視覺特征;
2)語義模塊用于從視覺特征中預(yù)測(cè)語義信息;
3)預(yù)訓(xùn)練語言模型用于監(jiān)督語義模塊預(yù)測(cè)的語義信息;
4)解碼器包括 RNN 和注意機(jī)制用于生成識(shí)別結(jié)果。
模型
https://cloud.tencent.com/developer/article/1495100
超分辨率
Scene Text Image Super-Resolution via Parallelly Contextual Attention Network
ACMMM 2021
https://github.com/Vill-Lab/PCAN
SR,圖片超分辨率super resolution
數(shù)據(jù)
該論文的主要工作是構(gòu)建了新的數(shù)據(jù)集:真實(shí)的場(chǎng)景文本SR數(shù)據(jù)集,稱為TextZoom。它包含一對(duì)真實(shí)的低分辨率和高分辨率圖像
模型
對(duì)SRResNet模型進(jìn)行修改
并行的上下文注意網(wǎng)絡(luò),主要是改變了RNN的基本單位,平行的上下文關(guān)聯(lián)注意塊(PCAB)
直觀地說,水平方向建模用于構(gòu)建字符對(duì)字符
的依賴關(guān)系,而垂直方向建模用于字符內(nèi)的紋理上下文。
總結(jié)
以上是生活随笔為你收集整理的场景文字识别论文阅读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为鸿蒙系统手机会卡吗,鸿蒙系统的手机,
- 下一篇: 我的理想,我的奋斗目标