日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文盘点:CVPR 2019 - 文本检测专题

發布時間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文盘点:CVPR 2019 - 文本检测专题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨燕小花?

研究方向丨計算機視覺


CRAFT



論文主要思想?


本文的主要思路是先檢測單個字符(character region score)及字符間的連接關系(affinity score),然后根據字符間的連接關系確定最終的文本行,簡稱 CRAFT。


其網絡結構與 EAST 的網絡結構相似:特征提取主干網絡部分采用的是 VGG-16 with batch normalization;特征 decode 模塊與 U-Net 相似,也是采用自頂向下的特征聚合方式;網絡最終輸出兩個通道特征圖,即 region score map 和 affinity score map,具體的網絡結構圖如下:



對于訓練標簽生成,與以往分割圖(以二值化的方式離散標記每個像素的 label)的生成方式不同,本文采用高斯熱度圖來生成 region score 和 affinity score。文中說采用高斯熱度圖的好處是它能很好地處理沒有嚴格包圍的邊界區域。


對于 character region score 標簽生成,由于對 bbox 中的每個像素計算高斯分布值比較耗時,本文結合透視變換,采用了近似估計的方法來生成標簽,具體步驟如下:a). 準備一個二維的高斯圖;b). 計算高斯圖區域和每個文字框的透視變換;c). 將高斯圖變換到文字框區域。


而對于 character affinity score 標簽生成,先畫出每個字符框的對角線;再取每個文本對角線的上下兩個三角形的中心點,將緊挨著的兩個文本框中的中心點相連,得到 affinity score(即下圖中的紅色框)。


這樣的標簽生成可以使模型在較小感受野的情況下,也可以有效地檢測很大很長的文本實例,同時使得模型只關注單個字符與字符間的聯系,不需要關注整個文本行。



CRAFT 可以用于處理任意方向文本、 曲線文本、 畸變文本等。該方法具有如下特性:


1. 對尺度變換具有較好地魯棒性,本文都是基于單尺度圖像進行實驗的


2. 本文模型不能適用與粘連的語言,如 Bangla and Arabic characters;


3. 相比于端到端的文本檢測方法,該方法在訓練的時候也借助了文本長度(因為在訓練過程中對于合成樣本可以很好地進行單個字符的標注,但是對于現有的文本數據庫,其標注方式基本是基于文本行的,所以文中通過借助文本行長度來進行弱監督訓練);


4. 泛化能力較強。



LOMO



論文主要思想?


受限與 CNN 的感受野的及文本行的表征方式(bbox 或四邊形),長文本行與曲線文本的檢測仍存在極大的挑戰。針對此,本文提出了 LOMO (Look More Than Once),它由三部分組成:直接回歸模塊(DR)、迭代修正模塊(IRM)、形狀表征模塊(SEM)。


首先由直接回歸模塊產生粗略的四邊形表征的候選文本框;接著在提取的特征圖上通過迭代修正得到完整的長文本行的四邊形表征;最后通過結合文本行區域、文本行中心線及文本行邊界偏移得到最終的文本行。具體的框架圖如下:



對于直接回歸模塊,文中參考了 EAST,這里就不詳細解釋了。對于迭代修正模塊(IRM),使用了 RoI transform 層來提取四邊形文本行的特征塊,之所以沒有使用 RoI Pooling 或 RoI Align,是因為:


1. RoI transform 在提取四邊形文本行對應的特征塊時,保持寬高比不變;


2. 在相同感受野的情況下,文本行的四個角點可以為文本行的邊界提供更加精確的信息。


因此在回歸四個角點的時候,本文引入了角點注意力機制。對于形狀表征模塊(SEM),回歸了文本行的三種幾何屬性:文本行區域、文本行中心線及文本行邊界偏移。


其中文本行區域是一個二值 mask,文字區域用 1 表示,背景區域用 0 表示;文本行中心線也是一個二值 mask,它是文本行多邊形標注的一個向內收縮的版本(具體看 EAST);邊界偏移是 4 通道的 feature map。




對于文本行多邊形生成,具體步驟如下:


1. 文本中心線采樣:文中采用了 n 個等間距的方式對文本行中心線進行采樣。對于曲線文本(多邊形標注的),n=7;對于其它數據集(四邊形標注的,如ICDAR2015,ICDAR2017 等),n=2;


2. 邊界點生成:基于已采樣的文本中心線,結合相同位置的 4 個角點的偏移 maps,得到文本行的邊界點,然后順時針連接這些角點,就可以得到文本行的完整表征;


3. 多邊形得分:文中將多邊形區域內的文本行響應均值作為最終的文本行得分。


?圖中黃色表示ground truth;藍色框是DR模塊的輸出;綠色框是IRM模塊的輸出;紅色框是SEM模塊的輸出。


LSAE



論文主要思想


本文的主要思想是將文本檢測當做一種實例分割,采用了基于分割框架來進行檢測。具體的做法是將每個文本行看成一個連通區域,為了更好地區分不同文本實例(即挨得很近的文本或者是很大很長的文本),本文提出了將圖像像素映射到嵌入特征空間中,在該空間中,屬于同一文本實例的像素會更加接近彼此,反之不同文本實例的像素將會遠離彼此。


特征提取主干網絡采用的是 ResNet-50,接著使用兩個對稱的特征融合模塊(即兩個對稱的特征金字塔,這里合并的策略與 PANet 中的自適應特征池化相似),一個用于后續的嵌入分支(Embedding branch),另一個用于后續的分割分支(文本行前景圖,包括全文本行前景圖和向內收縮后的文本行前景圖)。


通過權重共享,使得兩個任務優勢互補。網絡輸出包括嵌入特征圖和文本行前景掩膜圖,然后經過后處理得到最終的預測文本行。總體網絡結構如下圖:



為什么要使用嵌入形狀感知?1)相比與通用的目標檢測,文本檢測更難根據邊界確定兩個挨的很近的文本實例;2)文本行的寬高比變化太大,如從單個文字到整個文本行。


文中針對該分支提出了 Shape-Aware Loss損失函數,它包括兩部分的損失:方差損失和距離損失,該損失函數用于區分嵌入特征空間中的不同文本實例。具體的計算公式如下:



對于最終文本行的構建:論文中通過結合嵌入特征圖,Full Map,Center Map 三種特征圖來進行聚類,得到最終的文本行。


具體的聚類步驟如下:首先使用 DBSCAN 聚類算法得到兩個聚類集合:Full Map 的和 Center Map 的;接著對在 Full Map 內 Center Map 外的像素進行簇類劃分,這里劃分的規則是根據嵌入空間中當前像素的嵌入距離到每個簇類平均嵌入距離,若小于指定的閾值,則該像素歸于當前簇類;反之,亦然。接著通過上述遞歸,得到新的簇類集合,然后對每個簇類集合采用最小外接矩形框最為最終的文本行檢測框。


為什么不直接在嵌入空間中使用聚類?直接使用嵌入空間進行聚類,并不能很好地區分不同的文本實例。



PSENet




論文主要思想?


形狀魯棒性文本檢測存在以下挑戰:1)現有的文本檢測是基于四邊形或旋轉矩形,很難將任意形狀的文本(特別是形狀文本)進行包閉操作;2)大多數基于像素分割的方法不能很好地區分非常鄰近的文本實例。


針對上述問題,本論文提出了基于語義分割的單文本實例多預測方法(簡稱 PSENet),它采用了前向漸進式尺度擴展的方法用來區分鄰近的文本實例,可用于檢測任意方向的文本。


PSENet 沿用了特征金字塔網絡結構(簡稱 FPN),并在此基礎上增加了特征融合和漸進式尺度擴展的方式來實現自然場景中文本行的檢測。具體步驟如下:


1. 先沿用 FPN 中的網絡結構作為特征提取主干網絡,提取 4 個 feature maps(低維度和高維度特征連接在一起),分別為 P2, P3, P4, P5;


2. 將上述提取的特征進行融合得到 F,F 中包含了不同感受野的信息,對應融合操作為:



融合后 F 的通道數為 256×4 = 1024 ;


3. 將融合后的 F 送入 Conv3-BN-ReLu 層(得到 256 個通道),然后再經過 Conv1-Up-Sigmoid 層產生 n 個分支,生成不同的分割結果,分別為 S1, S2…. Sn,其中 S1 表示最小的尺度,并依次遞增。每個 Si 表示在某個特定尺度的所有文本實例的分割掩膜圖;


4. 使用漸進式尺度擴展的方式逐漸擴展 S1 中每個文本行實例的 kernels,直到 Sn,得到最終的檢測結果。具體的網絡結構如下:



漸進式尺度擴展的具體步驟(該步驟是結合下述示例圖來進行闡述的):


1. 給定網絡的輸出集合 S1, S2…Sn,對于最小尺度 S1,包含 4 個明顯的 connected components 為 C = (c1, c2, c3, c4),用于初始化;通過對當前 S1 求連通域,并結合對應的源圖像,得到不同顏色的文字塊(就是論文中說的 kernels),這里用不同的顏色表示不同的文本行實例,這樣就獲得了每個文本行實例的中心部分;


2. 通過漸進式尺度擴展方法(文中采用的是廣度優先搜索算法)依次合并 S2,S3,….Sn,直到網絡的輸出集合全部合并完畢;


3. 提取圖像中不同顏色的區域,得到最終的文本行。漸進式尺度擴展的步驟示例圖如下:



關于訓練標簽生成,因為 PSENet 輸出的包含了不同尺度的分割結果 S1, S2, …Sn,要想生成這些不同“kernels”的分割圖就必須生成對訓練的 ground truths。


在實際操作中,可以通過 shrinking 操作來生成對應的 ground truths label。如下圖所示:藍色多邊形是原始標注的文本行的 ground truths,它對應的是最大的掩膜圖。



為了生成其它不同的kernels”,這里通過圖像多邊形裁剪算法(Vatti clipping algorithm)來每次向內收縮 di 個像素得到對應收縮后的 pi(具體計算公式詳見論文)。注意這里收縮是在 mask 操作上進行的,所以所有的 ground truths 都是二值圖像。

檢測結果如下:



PMTD



本文是商湯和香港中文大學聯合發表并于 2019.03.28 掛在 arXiv 上,本文的方法在 ICDAR2017 MIT 數據集上,相比于之前最高的精確率提升了 5.83% 百分點,達到 80.13%;在 ICDAR2015 數據集上,提升了 1.34% 個百分點,達到 89.33%。


論文主要思想?


本文提出了 Pyramid Mask 文本檢測器,簡稱 PMTD。它主要做了如下工作:


1. 提出了軟語義分割的訓練數據標簽。與現有的基于 Mask RCNN 方法(文本區域內的像素標簽為 0 或 1)不同,本文針對文本區域和背景區域提出了軟語義分割(soft semantic segmentation),文本行區域內的像素標簽值范圍在 0-1 之間,不同位置的像素標簽值是由其當前位置到文本邊界框的距離決定的,這樣做的好處是可以考慮訓練數據的形狀和位置信息,同時可以一定程度上緩解文本邊界區域的一些背景干擾;


2. 提出通過平面聚類的方法構建最終的文本行。通過像素坐標及對應像素點的得分構建 3D 點集合,然后通過金字塔平面聚類的迭代方法得到最終的文本行。



文中做了兩個實驗:baseline 和 PMTD。baseline 是基于 Mask RCNN 的,主干提取特征網絡采用的是 ResNet50,網絡結構采用了 FPN。相比原生的 Mask RCNN,做了 3 方面修改:1)數據增廣;2)RPN anchor;3)OHEM。具體的修改細節詳見論文。


那么 baseline 存在什么問題呢?


1. 沒有考慮普通文本一般是四邊形,僅按照像素進行分類,丟失了與形狀相關的信息;


2. 將文本行的四邊形的標定轉換為像素級別的 groundtruth 會造成 groundtruth 不準的問題;


3. 在 Mask R-CNN 中是先得到檢測的框,然后對框內的物體進行分割,如果框的位置不準確,這樣會導致分割出來的結果也不會準確。


PMTD 是針對 baseline 中存在的問題提出的改進,主要包括:


1. 網絡結構的改進:PMTD 采用了更大的感受野來獲取更高的準確率,為了獲取更大的感受野,本文通過改變 mask 分支,將該分支中的前 4 個卷積層改成步長為 2 的空洞卷積,因為反卷積操作會帶來棋盤效應,所以這里采用雙線性采樣+卷積層來替換反卷積層;


2. 對于訓練標簽生成部分,使用了金字塔標簽生成,具體做法是:文本行的中心點為金字塔的頂點(score=1),文本行的邊為金字塔的底邊,對金字塔的每個面中應該包含哪些像素點采用雙線性插值的方法。



那么如何得到最終的文本行呢?文中使用了平面聚類的方法,用于迭代回歸從已學習到的 soft text mask 尋找最佳的文本行的邊界框。在具體操作時,可以看成與金字塔標簽生成的反過程。





點擊以下標題查看更多往期內容:?


  • CVPR 2019 | 基于池化技術的顯著性目標檢測

  • CVPR 2019 | 實體零售場景下密集商品的精確探測

  • CVPR 2019 | STGAN: 人臉高精度屬性編輯模型

  • CVPR 2019 | 天秤座R-CNN:全面平衡的目標檢測

  • CVPR 2019 | 基于高清表示網絡的人體姿態估計

  • 免費中文深度學習全書:理論詳解加代碼分析

  • 目標檢測小tricks之樣本不均衡處理

  • 小米拍照黑科技:基于NAS的圖像超分辨率算法



#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 訪問作者專欄

總結

以上是生活随笔為你收集整理的论文盘点:CVPR 2019 - 文本检测专题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩中文字幕一区二区三区 | 四虎视频在线 | 奇米在线 | 日本大尺度吃奶做爰视频 | 欧美激情啪啪 | 自拍视频第一页 | 亚洲免费国产视频 | 久久久国产成人一区二区三区 | 自拍露脸高潮 | 精品无码久久久久成人漫画 | 亚洲自拍天堂 | 九色丨蝌蚪丨成人 | 91免费看.| 六月激情综合 | аⅴ资源新版在线天堂 | 青草青视频 | 色吧久久 | 夜夜嗨av一区二区三区免费区 | 91精品国产色综合久久不卡粉嫩 | 国产精品一二三四五区 | 91免费视频入口 | 91久久精品国产91久久性色tv | 水密桃av| 免费看国产黄色片 | 这里只有精品在线播放 | 天天操天天操天天操天天操天天操 | 午夜寂寞视频 | 日本一区二区三区精品视频 | 久久视频在线观看免费 | 毛片视频免费播放 | 国产一区二区三区黄 | 99热8| 西欧free性满足hd老熟妇 | 亚洲国产精品无码久久久久高潮 | 日韩不卡在线观看 | 色呦呦免费视频 | 成人区人妻精品一熟女 | 欧美综合自拍 | 九一国产在线 | 五月天色网站 | 亚洲性图一区二区 | 成人欧美一区二区三区白人 | 中出 在线| 亚洲国产精品久久久久婷婷老年 | 日本亚洲综合 | 日本妈妈9 | 欧美毛片视频 | 日韩在线视频免费播放 | 欧美精品videos | 亚洲福利电影网 | www.96av| 96久久 | 婷婷综合网站 | 95香蕉视频 | 91亚洲专区 | 超碰人人超碰 | 日本亚洲一区二区 | 欧美高清视频一区二区三区 | 日本不卡免费 | 视频在线观看免费大片 | 国产91清纯白嫩初高中在线观看 | 亚洲淫欲| 日韩大片一区二区 | 丰满尤物白嫩啪啪少妇 | 黄页在线观看 | 国产裸体视频网站 | 午夜激情视频网 | 久久久久久久久艹 | 国产成人精品无码免费看在线 | 日在线视频 | a男人天堂 | 日韩精品一区二区三区不卡 | 啄木乌欧美一区二区三区 | 亚洲黄站 | 久久深夜福利 | 91亚洲精华 | 美国免费黄色片 | 78日本xxxxxxxxx59 亚洲图片小说视频 | 好吊操免费视频 | 成人激情小视频 | 国产精品99久久久久久人 | 欧美黄色免费大片 | 麻豆一区二区在线 | av色图片| 日本综合视频 | 亚洲欧美日韩一区二区三区四区 | 婷婷91| 美日韩黄色片 | 999av视频 | 国产成人无码www免费视频播放 | 久久婷婷视频 | 日韩在线视频一区二区三区 | 中文字幕精品一区二区精品 | 亚洲欧美日韩天堂 | 淫僧荡尼巨乳(h)小说 | 男人添女人下部高潮视频 | 调教一区二区三区 | 四虎影院一区二区 | 中国三级视频 |