日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

场景文字识别论文阅读

發(fā)布時(shí)間:2024/3/13 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 场景文字识别论文阅读 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

由粗到細(xì)的注意力機(jī)制
Image-to-Markup Generation with Coarse-to-Fine Attention
圖片的多層卷積網(wǎng)絡(luò)+結(jié)合了多行循環(huán)網(wǎng)絡(luò)模型的encoder+基于注意力機(jī)制的循環(huán)decoder


CNN 輸出 進(jìn)入 行encoder,生成特征灰色網(wǎng)格,虛線指出token的中心,藍(lán)色是粗粒度注意力選出的符號(hào)0的支撐集

成就:減少注意力開支
全柵格encoder:不一定從左到右
由一個(gè)解決image captioning的模型改編而來,但添加了row encoder

模型

  • CNN 圖片卷積,生成灰度柵格圖(包含抽象特征)[feature map]
  • RNN(row encoder) 對(duì)灰度grid 的每一行進(jìn)行編碼,提取空間布局信息,生成特征[fine feature]
  • 2變體,提取[coarse feature],來決定2的support region(藍(lán)色)
  • 包含注意力機(jī)制的RNN(decoder),一個(gè)詞匯表上的條件語言模型[final output]
  • 具體實(shí)現(xiàn)

    1 CNN卷積

    多層卷積穿插最大池化,沒有使用最終全連接(因?yàn)橄胧褂肅NN特征的局部信息,視覺注意力)

    2 row encoder

    傳統(tǒng)使用CTC(分割字母,得到剪枝的所有可能結(jié)果并預(yù)測(cè)概率)
    對(duì)OCR至關(guān)重要,定位相對(duì)位置
    使用的LSTM模型(RNN的一種)
    位置嵌入:可訓(xùn)練的初始隱藏層,捕捉列信息【?】

    3 decoder

    在[decoder RNN]上層有[條件語言模型]
    計(jì)算 P(預(yù)測(cè)值 | 過去decoder結(jié)果、特征V) = 激活函數(shù)(學(xué)習(xí)到的矩陣Ot)
    Ot = 激活函數(shù) (學(xué)到的矩陣(RNN歷史記錄向量*ct))
    ct:上下文注意力。上下文:對(duì)源的特征的期望

    4 注意力機(jī)制

    標(biāo)準(zhǔn)、分類、由粗到細(xì)

    基礎(chǔ) 連接主義文本提議網(wǎng)絡(luò)

    Detecting Text in Natural Image with Connectionist Text Proposal Network
    ECCV 2016
    https://github.com/eragonruan/text-detection-ctpn

    目標(biāo)

  • 準(zhǔn)確定位自然圖像中的文本行:垂直錨點(diǎn)機(jī)制,固定寬度劃分文本與非文本
  • 定位文字提案,循環(huán)連接固定寬度的錨點(diǎn)提議:BRNN網(wǎng)內(nèi)循環(huán)架構(gòu),用于按順序連接這些細(xì)粒度的文本提議序列提議,通過循環(huán)神經(jīng)網(wǎng)絡(luò)自然地連接起來
  • 方法

    • CPTR網(wǎng)絡(luò):由卷積網(wǎng)絡(luò)、特征映射圖組成。卷積采用由VGG16(遷移學(xué)習(xí))網(wǎng)絡(luò)結(jié)構(gòu)
    • VGG16使用的層:
      • RNN:帶反饋的、可以利用先前知識(shí)的CNN,利用文本序列性特性
        • 層使用的神經(jīng)元:LSVM:可以學(xué)習(xí)長(zhǎng)期依賴信息的RNN。只有一些少量的線性交互
      • 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN):不僅考慮過去知識(shí),還考慮未來
    • 非極大值抑制

    結(jié)果

    CTPN的計(jì)算效率為0.14s每張圖像

    分割 實(shí)例分割檢測(cè)場(chǎng)景文本

    PixelLink: Detecting Scene Text via Instance Segmentation
    AAAI 2018
    https://github.com/ZJULearning/pixel_link

    VGG16通過像素二分類劃分,直接提取邊框

    扭曲文字識(shí)別

    TextSnake A Flexible Representation for Detecting Text of Arbitrary Shapes
    ECCV2018
    https://github.com/princewang1994/TextSnake.pytorch

    論文介紹詳細(xì),甚至包括網(wǎng)絡(luò)調(diào)參細(xì)節(jié)、batch設(shè)計(jì)和GPU設(shè)計(jì)等

    目標(biāo)

    識(shí)別以曲線方式分布的文字

    方法

  • FCN全卷積網(wǎng)絡(luò):分為卷積和上采樣,卷積使圖片越來越模糊,最終確定類別;上采樣確定原圖像素點(diǎn)的類別。(網(wǎng)絡(luò)卷積部分還是VGG)
  • 網(wǎng)絡(luò)得到7個(gè)通道結(jié)果:網(wǎng)絡(luò)得到文字區(qū)域及區(qū)域中心線、區(qū)域角度等信息;分割成不同區(qū)域
  • 跨步滑動(dòng)形成圓盤(原理:如果曲率大,則跨步小,描繪出整個(gè)曲線)圓盤半徑與跨步長(zhǎng)度有關(guān)(為什么要設(shè)計(jì)圓盤?分開文字后續(xù)進(jìn)行文字識(shí)別?)
  • 數(shù)據(jù)

    該文提出了一種新的文字區(qū)域表示方法,沒有現(xiàn)成數(shù)據(jù)集,需要自己制作標(biāo)簽(區(qū)域和中心線)

    損失函數(shù)

    損失 = 區(qū)域和中心線的分類損失(交叉熵,類似極大似然,取概率最大的類分類) + r sin cos等幾何屬性的回歸損失(smooth1Loss,一個(gè)更優(yōu)的均方誤差函數(shù))

    評(píng)價(jià)指標(biāo)

    評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)
    召回率:度量有多個(gè)正例被分為正例
    精度:表示被分為正例的示例中實(shí)際為正例的比例。
    F:兩者調(diào)和 當(dāng)F1較高時(shí)則能說明試驗(yàn)方法比較有效

    語義增強(qiáng)

    SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
    CVPR2020
    https://github.com/Pay20Y/SEED

    目標(biāo)

    識(shí)別出單詞并進(jìn)行矯正,應(yīng)對(duì)諸如圖像模糊、光照不均、字符不完整等諸多挑戰(zhàn)

    發(fā)展歷程

  • 自底向上:SVM等對(duì)字母識(shí)別并分類;啟發(fā)式規(guī)則、語言模型或詞典將它們分組到一個(gè)單詞或文本行
  • 自頂向下:將一個(gè)單詞視為一個(gè)類,識(shí)別-》圖像分類。技術(shù):連接主義時(shí)間分類(CTC)和注意力機(jī)制
  • 步驟

    從一個(gè)預(yù)先訓(xùn)練好的語言模型中獲得詞語嵌入,并計(jì)算訓(xùn)練過程中語義信息和詞語嵌入之間的損失。通過這種方式,語義信息包含更豐富的語義,
    然后預(yù)測(cè)的語義信息被用來指導(dǎo)解碼過程。因此,解碼過程可以被限制在一個(gè)語義空間內(nèi),識(shí)別性能會(huì)更好
    1)編碼器包括 CNN骨干和 RNN 用于提取視覺特征;
    2)語義模塊用于從視覺特征中預(yù)測(cè)語義信息;
    3)預(yù)訓(xùn)練語言模型用于監(jiān)督語義模塊預(yù)測(cè)的語義信息;
    4)解碼器包括 RNN 和注意機(jī)制用于生成識(shí)別結(jié)果。

    模型

  • 語義模塊 fastText:模仿構(gòu)詞學(xué),將單詞間的關(guān)系用向量表示
    https://cloud.tencent.com/developer/article/1495100
  • 編碼器-解碼器框架:編碼器卷積和采樣,生成視覺特征;解碼器上采樣恢復(fù)維度
  • 文字識(shí)別 SAR 二維注意力機(jī)制模塊(就是網(wǎng)絡(luò)中的注意力模塊)
  • 超分辨率

    Scene Text Image Super-Resolution via Parallelly Contextual Attention Network
    ACMMM 2021
    https://github.com/Vill-Lab/PCAN

    SR,圖片超分辨率super resolution

    數(shù)據(jù)

    該論文的主要工作是構(gòu)建了新的數(shù)據(jù)集:真實(shí)的場(chǎng)景文本SR數(shù)據(jù)集,稱為TextZoom。它包含一對(duì)真實(shí)的低分辨率和高分辨率圖像

    模型

    對(duì)SRResNet模型進(jìn)行修改
    并行的上下文注意網(wǎng)絡(luò),主要是改變了RNN的基本單位,平行的上下文關(guān)聯(lián)注意塊(PCAB)
    直觀地說,水平方向建模用于構(gòu)建字符對(duì)字符
    的依賴關(guān)系,而垂直方向建模用于字符內(nèi)的紋理上下文。

    總結(jié)

    以上是生活随笔為你收集整理的场景文字识别论文阅读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。