當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pads 文本不能修改_斜框检测经典网络(文本)- R2CNN

發布時間：2023/12/2 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 pads 文本不能修改_斜框检测经典网络(文本)- R2CNN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文題目：R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection
論文來源：2017CVPR
論文地址：https://arxiv.org/abs/1706.09579
論文代碼：https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow

PS：總結在最后。

文章出發點：

作者提出了一個叫做Rotational Region CNN(R2CNN)的方法，該方法可用于自然場景中任意方向的文本檢測。

貢獻：

構建了一個新穎的任意方向場景文本檢測的方法，該方法基于Faster R-CNN搭建的。RPN用于提取文本區域，修改后的Fast R-CNN用于文本區域分類、區域修正以及傾斜box的預測。

任意方向的文本檢測問題是一個多任務問題。該方法的核心是對每個由RPN生成的候選框預測文本分數、軸對齊的box以及傾斜的最小box區域。

為了充分利用文字特征，作者對每個RPN的候選區域都做了幾個感興趣池化操作，池化后的特征連結起來用于進一步的檢測。

本文修改的Faster R-CNN添加了一個更小的anchor用于檢測小的場景文本，最后用斜的NMS去后處理檢測候選結果。

方法：

在本文中，作者考慮到角度并不能很好地表達特殊的點，因而沒有采用角度信息。每個矩形框的標注包含5個值

，其中是左上角點的坐標，是順時針方向的第二個點，表示最小傾斜矩陣的高度。R2CNN的網絡結構如下：

Rotational Region CNN

本文采用了兩階段目標檢測方法，由區域提取和區域分類兩部分組成。

RPN for proposing axis-aligned boxes

使用RPN生成軸對齊的bounding box來包圍任意方向的文本。在軸對齊的box中文本會屬于下列情形之一：1.水平方向的文本；2.垂直方向的文本；3.軸對齊對角線方向的文本。RPN能夠生成面向任意文本的軸對齊框形式的文本區域。

為了解決小的場景文本的問題，在RPN中使用了更小尺寸的anchor，anchor的尺度為

。

ROIPoolings of different pooled sizes

由于一些文本的寬度大于他們的高度，本文嘗試使用三種不同尺度的ROIPooling去捕捉更多的文本特征。池化后的特征進一步用于檢測。具體來說，本文添加了兩個池大小:11×3和3×11。

可以捕捉更多的水平特征，幫助檢測寬度遠遠大于高度的水平文本。可以捕獲更多的垂直特征，對于高度遠大于寬度的垂直文本檢測很有用。

Regression for text/non-text scores, axis-aligned boxes, and inclined minimum area boxes

在本文的方法中，在RPN之后，本文將RPN生成的候選區域分類為文本或非文本，改進了包含任意方向文本的軸對齊的bounding box，預測了傾斜的bounding box。每個傾斜的box都與一個軸對齊的box相關聯。盡管本文的檢測目標是傾斜的邊界框，但本文認為添加其他約束（軸對齊的邊界框）可以提高性能。

Inclined non-maximum suppression

傾斜的交并比。對于緊密相鄰的傾斜文本，正常的NMS可能會丟失一些文本，因為軸對齊框之間的IoU可能很高。但傾斜的NMS不會丟失文本，因為傾斜的IoU值低。

Training objective(Multi-task loss)

RPN的訓練loss與Faster R-CNN的一樣。

在每個候選區域的loss函數是文本/非文本分類loss和box回歸loss的和。box的回歸loss由兩部分組成：軸對齊box的loss和傾斜的最小區域box的loss。在每個候選區域上，多任務loss函數定義如下：

實驗：

Training Data

本文的訓練數據集包含1000個來自ICDAR 2015的附加場景文本圖片和2000個搜集到的文本圖片。收集到的場景文本圖片是不同于ICDAR 2015中的模糊文本的。為了支持任意面向場景的文本檢測，本文通過旋轉圖像來增強ICDAR 2015訓練數據集和我們自己的數據。在擴充之后，訓練數據由39000張圖片組成。

ICDAR 2015中的文本采用四個順時針方向的四邊形點坐標在單詞水平上進行標記。通過計算包圍四邊形的最小面積矩形，從四邊形中生成ground truth傾斜包圍box(矩形數據)。然后計算最小軸對齊邊框，該邊框將包圍文本作為ground truth軸對齊框。本文同樣對采集的圖像進行了類似的處理來生成ground truth數據。

Performance

本文在ICDAR 2015和ICDAR 2013兩個數據集上評估了模型的性能。評估指標遵循ICDAR Robust Reading Competition的標準，為精度、召回率和F-measure。檢測結果提交至競賽網站，并在網上獲得評比結果。

ICDAR 2015

該方法的召回率為79.68%，精密度為85.62%，F-measure為82.54%。

在實驗中，作者主要分析了軸對齊box回歸(

)、傾斜box回歸( )、anchor尺度、NMS以及不同尺度的ROIPoolings的影響。

首先在ICDAR 2015上對所有模型進行單尺度測試；然后對R2CNN-3、R2CNN-4以及R2CNN-5進行了多尺度測試。實驗結果如下：

與其他方法的對比：

ICDAR 2013

ICDAR 2013測試數據集包含233張聚焦的場景文本圖像。圖片中的文字是水平的。由于我們可以估計軸向框和傾斜框，本文使用軸向框作為ICDAR 2013的輸出。和其他方法的比較結果如下：

這證明本文設計的方法對于水平文本檢測也有一定的優勢。

總結：

本文的方法是在Faster R-CNN的基礎上進行改進的，目的是完成傾斜文本的檢測。所設計的方法對Faster R-CNN的主體結構并沒有太大的修改，該方法也可以換用其他的baseline，比如SSD和YOLO，對其他的檢測框架有較強的適用性。
在其他斜框檢測方法中，一般都是引入了角度信息，而作者引入的是相鄰兩點坐標以及矩陣的高，這樣可以在一定程度上解決如-90°與90°混淆的問題，有利于文本識別的使用。
從實驗結果上來看，R2CNN對傾斜和水平的文本檢測都表現出了不錯的優勢，在對傾斜文本框進行檢測時，數據集是對水平文本進行人為旋轉構建的，與實際傾斜場景可能有些區別。

總結

以上是生活随笔為你收集整理的pads 文本不能修改_斜框检测经典网络(文本)- R2CNN的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：获取按钮点击次数_无限次数使用，不会吧？
下一篇：群晖套件来源_群晖安装IPKG包管理器及