日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

發(fā)布時間:2025/4/5 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Attention OCR 歷史意義: 開創(chuàng)了基于attention機制建模OCR問題的先河。

本文主要結(jié)構(gòu)如下:

一、Abstract

? ? ? ?介紹提出attention-based OCR模型的優(yōu)勢

1. 論文提出基于attention模型取得更高的準(zhǔn)確率

2. 模型結(jié)構(gòu)簡單,通用性更高

3.充足的實驗給出有效結(jié)論

二、Introduction

? ? ? ?介紹當(dāng)前OCR領(lǐng)域研究的主流方法,分別有不同的缺點,文末提出模型優(yōu)點及創(chuàng)新

三、The Proposed Network Architecture

? ? ? ?提出OCR模型分模塊介紹,包括CNN layer、RNN layer、Spatial attention layer、多視點操作、訓(xùn)練

模型主要結(jié)構(gòu)如圖1所示: 首先經(jīng)過一個CNN layer提取圖像特征,然后通過attention特征輸入到RNN中

CNN layer: 本文采取三種CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 圖像模型提取后的特征用fijc來表示,i,j表示圖像上的位置,c表示channel的索引

RNN layer:?

? ? ?1. Ut,c 表示at權(quán)重值和圖片的特征值對應(yīng)相乘加和

? ? ?2. t時刻RNN模型的輸入xt表示t-1時刻字符的one-hot索引值 與 參數(shù)矩陣 對應(yīng)相乘 ? t-1時刻的Ut-1,c與 參數(shù)矩陣的乘積(下面公式2)

? ? ? 3. RNN模型的輸入: xt 以及RNN模型t-1時刻的輸出

? ? ? 4. RNN模型的輸出: Ot, St

? ? ? 5. 將Ot和Ut乘參數(shù)矩陣通過一個softmax得到Ot', 最后獲取每個字符的概率值,值最大的表示label

Spatial attention: 主要是將channel的i和j位置向量onehot加入到輸入tanh函數(shù)中(local aware attention)

四、Dataset

? ? ? ? 主要介紹兩種數(shù)據(jù)集-FSNS Dataset、Google Street View?

五、Experiment

? ? ? ? 統(tǒng)領(lǐng)全文、再次重申提出的attention模型優(yōu)勢,實驗結(jié)果表明使用location aware attention可以提升9個百分點,并且證明了特征提取網(wǎng)絡(luò)深度對準(zhǔn)確率的影響,最后進行錯誤分析以及可視化展示

六、Conclusion

? ? ? ? 結(jié)論及展望

?關(guān)鍵點:?

? ? ? ? 1. 特征提取: CNN

? ? ? ? 2. 語言模型: RNN

? ? ? ? 3. 自回歸: Attention

創(chuàng)新點:

? ? ? ? 1. 基于Attention機制實現(xiàn)OCR模型

? ? ? ? 2. 模型自回歸

其發(fā)點:

? ? ? ? 對于圖像特征提取而言,網(wǎng)絡(luò)深度不是越深越好,過于深反而會引入噪音

七、Code

? ? ??https://github.com/tensorflow/models/tree/master/research/attention_ocr

總結(jié)

以上是生活随笔為你收集整理的Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。