日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【每周CV论文】深度学习文本检测与识别入门必读文章

發布時間:2025/3/20 pytorch 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【每周CV论文】深度学习文本检测与识别入门必读文章 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎來到《每周CV論文推薦》。在這個專欄里,還是本著有三AI一貫的原則,專注于讓大家能夠系統性完成學習,所以我們推薦的文章也必定是同一主題的。

文本檢測和識別是計算機視覺的一個非常重要的應用,今天給大家推薦初入該領域可以讀的文章。

作者&編輯 | 言有三

1 CTPN

文本與一般的目標有區別,比如沒有精確而閉合的邊緣,單個字符目標窄,但是整體文本串又較長。針對這個特點,研究者提出CTPN框架(Connectionist Text Proposal Network),通過檢測行方向上寬度固定的文本提高定位精度,然后對相鄰行進行合并來獲取檢測結果。

文章引用量:300+

推薦指數:?????

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]? ? . european conference on computer vision, 2016: 56-72.

2 TextBoxes

針對文本行一般比較長的特點,TextBoxes對SSD框架中的Default Box的長寬比以及卷積核的大小進行了相應的改變,本質上依舊是使用SSD框架進行檢測。

文章引用量:150+

推薦指數:?????

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

與大部分目標檢測問題的一個顯著不同就是,文本往往是有傾斜方向的,因此檢測結果框如果沒有方向就不夠精確,R2CNN框架即Rotational Region CNN,就是將最后的檢測box定義為一個帶方向的box,另外也會同時預測一個無方向(即水平)的框來包包裹有方向的box。

文章引用量:150+

推薦指數:?????

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一個基于DenseBox的旋轉文本檢測框架,不過與R2CNN的不同之處在于,它不是在最終box回歸的時候輸出旋轉框,而是使用了多個通道來預測旋轉信息,比如4個通道預測邊界距離,一個通道預測旋轉角度。

文章引用量:300+

推薦指數:?????

[4]?Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一個基于Faster RCNN框架的旋轉文本檢測框架,與R2CNN和EAST不同的是,它采用了帶方向的Region Proposal和RoI Pooling,因此本身就可以輸出帶方向的目標框。

文章引用量:200+

推薦指數:?????

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6?SegLink

文本有的時候非常的長,anchor box不一定能夠很好覆蓋,SegLink基于SSD目標檢測方法進行改進。首先檢測局部片段,然后通過規則將所有的片段進行連接,得到最終的文本行,這樣做的好處是可以檢測任意長度的文本行。

文章引用量:150+

推薦指數:?????

[6]?Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7??CRNN

CRNN是一個端到端的文本識別框架,它輸入整段的文本圖片。CRNN使用CNN進行特征提取,RNN進行隱藏狀態和空間特征建模,CTC用于對RNN的結果進行整合改進。

文章引用量:600+

推薦指數:?????

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 綜述

最后,如果你想快速了解整個領域的發展現狀,可以閱讀相關的綜述文章[8-9]。

[8] 王潤民, 桑農, 丁丁,等. 自然場景圖像中的文本檢測綜述[J]. 自動化學報, 2018, 044(012):2113-2141.

[9]?Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

總結

本次我們介紹了初學文本檢測和識別值得讀的文章,另外當前文本檢測和識別的研究難點在于任意形狀文本檢測,多語言文本識別,端到端檢測與識別等方向,讀者可以繼續關注。

有三AI知識星球

知識星球是有三AI的付費內容社區,里面包括各領域的模型學習,數據集下載,公眾號的付費圖文原稿,技術總結PPT和視頻,知識問答,書籍下載,項目推薦,線下活動等資源,了解詳細請閱讀以下文章:

【雜談】有三AI知識星球一周年了!為什么公眾號+星球才是完整的?

【雜談】萬萬沒想到,有三還有個保密的‘朋友圈’,那里面都在弄啥!

轉載文章請后臺聯系

侵權必究

往期精選

  • 【每周論文推薦】 初入深度學習CV領域必讀的幾篇文章

  • 【每周CV論文推薦】 掌握殘差網絡必讀的10多篇文章

  • 【每周CV論文推薦】 初學者必須精讀的5篇深度學習優化相關文章

  • 【每周CV論文推薦】 CV領域中數據增強相關的論文推薦

  • 【每周CV論文推薦】 初學高效率CNN模型設計應該讀的文章

  • 【每周CV論文推薦】 初學目標檢測必須要讀的文章

  • 【每周CV論文推薦】 初學深度學習圖像分割必須要讀的文章

  • 【每周CV論文推薦】 初學GAN必須要讀的文章

  • 【每周CV論文推薦】 深度學習人臉檢測入門必讀文章

  • 【每周CV論文推薦】 初學深度學習人臉關鍵點檢測必讀文章

  • 【每周CV論文推薦】 初學深度學習人臉識別和驗證必讀文章

  • 【每周CV論文推薦】 初學深度學習人臉屬性分析必讀的文章

  • 【每周CV論文推薦】 初學活體檢測與偽造人臉檢測必讀的文章

  • 【每周CV論文推薦】 初學深度學習單張圖像三維人臉重建需要讀的文章

  • 【每周CV論文推薦】 人臉識別剩下的難題:從遮擋,年齡,姿態,妝造到親屬關系,人臉攻擊

總結

以上是生活随笔為你收集整理的【每周CV论文】深度学习文本检测与识别入门必读文章的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。