當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【每周CV论文】深度学习文本检测与识别入门必读文章

發布時間：2025/3/20 pytorch 21 豆豆

生活随笔收集整理的這篇文章主要介紹了【每周CV论文】深度学习文本检测与识别入门必读文章小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎來到《每周CV論文推薦》。在這個專欄里，還是本著有三AI一貫的原則，專注于讓大家能夠系統性完成學習，所以我們推薦的文章也必定是同一主題的。

文本檢測和識別是計算機視覺的一個非常重要的應用，今天給大家推薦初入該領域可以讀的文章。

作者&編輯 | 言有三

1 CTPN

文本與一般的目標有區別，比如沒有精確而閉合的邊緣，單個字符目標窄，但是整體文本串又較長。針對這個特點，研究者提出CTPN框架(Connectionist Text Proposal Network)，通過檢測行方向上寬度固定的文本提高定位精度，然后對相鄰行進行合并來獲取檢測結果。

文章引用量：300+

推薦指數：?????

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]? ? . european conference on computer vision, 2016: 56-72.

2 TextBoxes

針對文本行一般比較長的特點，TextBoxes對SSD框架中的Default Box的長寬比以及卷積核的大小進行了相應的改變，本質上依舊是使用SSD框架進行檢測。

文章引用量：150+

推薦指數：?????

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

與大部分目標檢測問題的一個顯著不同就是，文本往往是有傾斜方向的，因此檢測結果框如果沒有方向就不夠精確，R2CNN框架即Rotational Region CNN，就是將最后的檢測box定義為一個帶方向的box，另外也會同時預測一個無方向(即水平)的框來包包裹有方向的box。

文章引用量：150+

推薦指數：?????

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一個基于DenseBox的旋轉文本檢測框架，不過與R2CNN的不同之處在于，它不是在最終box回歸的時候輸出旋轉框，而是使用了多個通道來預測旋轉信息，比如4個通道預測邊界距離，一個通道預測旋轉角度。

文章引用量：300+

推薦指數：?????

[4]?Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一個基于Faster RCNN框架的旋轉文本檢測框架，與R2CNN和EAST不同的是，它采用了帶方向的Region Proposal和RoI Pooling，因此本身就可以輸出帶方向的目標框。

文章引用量：200+

推薦指數：?????

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6?SegLink

文本有的時候非常的長，anchor box不一定能夠很好覆蓋，SegLink基于SSD目標檢測方法進行改進。首先檢測局部片段，然后通過規則將所有的片段進行連接，得到最終的文本行，這樣做的好處是可以檢測任意長度的文本行。

文章引用量：150+

推薦指數：?????

[6]?Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7??CRNN

CRNN是一個端到端的文本識別框架，它輸入整段的文本圖片。CRNN使用CNN進行特征提取，RNN進行隱藏狀態和空間特征建模，CTC用于對RNN的結果進行整合改進。

文章引用量：600+

推薦指數：?????

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 綜述

最后，如果你想快速了解整個領域的發展現狀，可以閱讀相關的綜述文章[8-9]。

[8] 王潤民, 桑農, 丁丁,等. 自然場景圖像中的文本檢測綜述[J]. 自動化學報, 2018, 044(012):2113-2141.

[9]?Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

總結

本次我們介紹了初學文本檢測和識別值得讀的文章，另外當前文本檢測和識別的研究難點在于任意形狀文本檢測，多語言文本識別，端到端檢測與識別等方向，讀者可以繼續關注。

有三AI知識星球

知識星球是有三AI的付費內容社區，里面包括各領域的模型學習，數據集下載，公眾號的付費圖文原稿，技術總結PPT和視頻，知識問答，書籍下載，項目推薦，線下活動等資源，了解詳細請閱讀以下文章：

【雜談】有三AI知識星球一周年了！為什么公眾號+星球才是完整的？

【雜談】萬萬沒想到，有三還有個保密的‘朋友圈’，那里面都在弄啥！

轉載文章請后臺聯系

侵權必究

往期精選

【每周論文推薦】初入深度學習CV領域必讀的幾篇文章
【每周CV論文推薦】掌握殘差網絡必讀的10多篇文章
【每周CV論文推薦】初學者必須精讀的5篇深度學習優化相關文章
【每周CV論文推薦】 CV領域中數據增強相關的論文推薦
【每周CV論文推薦】初學高效率CNN模型設計應該讀的文章
【每周CV論文推薦】初學目標檢測必須要讀的文章
【每周CV論文推薦】初學深度學習圖像分割必須要讀的文章
【每周CV論文推薦】初學GAN必須要讀的文章
【每周CV論文推薦】深度學習人臉檢測入門必讀文章
【每周CV論文推薦】初學深度學習人臉關鍵點檢測必讀文章
【每周CV論文推薦】初學深度學習人臉識別和驗證必讀文章
【每周CV論文推薦】初學深度學習人臉屬性分析必讀的文章
【每周CV論文推薦】初學活體檢測與偽造人臉檢測必讀的文章
【每周CV論文推薦】初學深度學習單張圖像三維人臉重建需要讀的文章
【每周CV論文推薦】人臉識別剩下的難題：從遮擋，年齡，姿態，妝造到親屬關系，人臉攻擊

總結

以上是生活随笔為你收集整理的【每周CV论文】深度学习文本检测与识别入门必读文章的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【杂谈】爬虫基础与快速入门指南
下一篇：梳理百年深度学习发展史-七月在线机器学习