日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度

發(fā)布時(shí)間:2025/7/25 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

模式識(shí)別新研究:微軟OCR兩層優(yōu)化提升自然場(chǎng)景下的文字識(shí)別精度

發(fā)表于2015-03-30 23:46|?6209次閱讀| 來(lái)源CSDN|?8?條評(píng)論| 作者霍強(qiáng)

模式識(shí)別微軟亞洲研究院微軟OCR文字識(shí)別淺層神經(jīng)網(wǎng)絡(luò) allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-03-30%2F2824348&type=3&count=&appkey=&title=OCR%E8%AF%86%E5%88%AB%E5%8F%AF%E5%88%86%E4%B8%BA%E4%B8%A4%E6%AD%A5%EF%BC%9A%E9%A6%96%E5%85%88%E6%98%AF%E6%96%87%E6%9C%AC%E6%A3%80%E6%B5%8B%EF%BC%8C%E5%B0%86%E6%96%87%E5%AD%97%E4%BB%8E%E5%9B%BE%E7%89%87%E4%B8%AD%E6%8F%90%E5%8F%96%E5%87%BA%E6%9D%A5%EF%BC%9B%E7%84%B6%E5%90%8E%E5%AF%B9%E6%96%87%E6%9C%AC%E8%BF%9B%E8%A1%8C%E8%AF%86%E5%88%AB%E3%80%82%E6%AD%A4%E6%AC%A1%E7%9A%84%E7%AA%81%E7%A0%B4%E4%B8%BB%E8%A6%81%E6%98%AF%E5%9C%A8%E6%96%87%E6%9C%AC%E6%A3%80%E6%B5%8B%E7%8E%AF%E8%8A%82%E7%9A%84%E4%B8%A4%E4%B8%AA%E5%AD%90%E9%98%B6%E6%AE%B5%EF%BC%9A%E5%85%88%E9%87%87%E7%94%A8%E5%AF%B9%E6%AF%94%E6%9E%81%E5%80%BC%E5%8C%BA%E5%9F%9FCER%E6%A3%80%E6%B5%8B%E6%96%B9%E6%B3%95%EF%BC%8C%E5%86%8D%E9%87%87%E7%94%A8%E5%9F%BA%E4%BA%8E%E6%B5%85%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E6%96%87%E5%AD%97%2F%E9%9D%9E%E6%96%87%E5%AD%97%E5%88%86%E7%B1%BB%E7%AE%97%E6%B3%95%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1461314008527" width="22" height="16">摘要:OCR識(shí)別可分為兩步:首先是文本檢測(cè),將文字從圖片中提取出來(lái);然后對(duì)文本進(jìn)行識(shí)別。此次的突破主要是在文本檢測(cè)環(huán)節(jié)的兩個(gè)子階段:先采用對(duì)比極值區(qū)域CER檢測(cè)方法,再采用基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法。

鼠標(biāo)發(fā)明人Douglas Engelbart曾經(jīng)針對(duì)人工智能的簡(jiǎn)稱AI提出了另一個(gè)理念——Augmented Intelligence,即增強(qiáng)智能。在他看來(lái),人已經(jīng)足夠聰明,我們無(wú)需再去復(fù)制人類,而是可以從更加實(shí)用的角度,將人類的智能進(jìn)一步延伸,讓機(jī)器去增強(qiáng)人的智能。

OCR (Optical Character Recognition,光學(xué)字符識(shí)別)就是這樣的一項(xiàng)技術(shù),它的本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,將人眼的能力延伸到機(jī)器上。本文將介紹OCR技術(shù)在移動(dòng)環(huán)境下面臨的新挑戰(zhàn),以及在自然場(chǎng)景圖像下微軟研究院文字識(shí)別技術(shù)的進(jìn)展。

OCR的新挑戰(zhàn)

早在20世紀(jì)50年代,IBM就開(kāi)始利用OCR技術(shù)實(shí)現(xiàn)各類文檔的數(shù)字化。到20世紀(jì)90年代,誕生十年的平板掃描儀對(duì)印刷體文本的識(shí)別率就已經(jīng)達(dá)到99%以上,OCR由此迎來(lái)了第一個(gè)應(yīng)用高潮。當(dāng)時(shí)最著名的事件是谷歌數(shù)字圖書(shū)館,谷歌還申請(qǐng)了圖書(shū)掃描專利,實(shí)現(xiàn)了批量化的高速掃描。在此期間,手寫字體的識(shí)別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領(lǐng)域。

然而,自從2004年擁有300萬(wàn)像素?cái)z像頭的智能手機(jī)誕生之日起,這一情況發(fā)生了根本改變。越來(lái)越多的人隨手拿起手機(jī)拍攝所看到的事物和場(chǎng)景,而此類自然場(chǎng)景中的文字識(shí)別難度遠(yuǎn)遠(yuǎn)高于平板掃描儀時(shí)期,即便是印刷字體,也不能得到很高的識(shí)別率,更別說(shuō)手寫體了。學(xué)術(shù)界因此將自然場(chǎng)景中的文字識(shí)別作為全新的課題來(lái)對(duì)待。

自然場(chǎng)景圖像中的文字識(shí)別大大難于掃描儀圖像中的文字識(shí)別,因?yàn)樗哂袠O大的多樣性和明顯的不確定性。如文字中包含多種語(yǔ)言,每種語(yǔ)言含有多種字母,每個(gè)字母又可以有不同的大小、字體、顏色、亮度、對(duì)比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對(duì)齊方式,橫向、豎向、彎曲都有可能;因拍攝圖像的隨意性,圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。


自然場(chǎng)景圖片中的文字多樣性示例

此外,與傳統(tǒng)?OCR 技術(shù)中的掃描文檔圖像相比,自然場(chǎng)景圖像的背景更為復(fù)雜。如文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復(fù)雜的紋理和噪聲;圖像中的非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹(shù)葉、柵欄、磚墻等。這些復(fù)雜背景會(huì)極大增加誤檢率。

本文檢測(cè)的改進(jìn)方法

由于自然場(chǎng)景下的文字識(shí)別難度大,微軟亞洲研究院團(tuán)隊(duì)對(duì)相關(guān)技術(shù)和算法進(jìn)行了針對(duì)性的優(yōu)化,從三個(gè)方面對(duì)文本檢測(cè)技術(shù)進(jìn)行了改進(jìn),并取得突破。通常,OCR識(shí)別的步驟可以分為兩步:首先是文本檢測(cè)(Text detection),將文字從圖片中提取出來(lái);然后,對(duì)文本進(jìn)行識(shí)別(Recognition),此次的突破主要是在文本檢測(cè)環(huán)節(jié)的兩個(gè)子階段。

階段①:采用對(duì)比極值區(qū)域CER檢測(cè)方法

一個(gè)字母或文字通常可以分為若干個(gè)連通區(qū)域,如o就擁有一個(gè)連通區(qū)域,i則擁有兩個(gè)連通區(qū)域,文本檢測(cè)首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,然后再對(duì)其進(jìn)行文字/非文字分類。

在確定候選連通區(qū)域階段,微軟亞洲研究院團(tuán)隊(duì)在傳統(tǒng)檢測(cè)方法ER(Extremal Region,極值區(qū)域)和MSER(Maximally Stable Extremal Region,最大平穩(wěn)極值區(qū)域)基礎(chǔ)之上采用了對(duì)比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對(duì)比度的極值區(qū)域,這個(gè)對(duì)比度至少要強(qiáng)到能夠被人眼感知到,在低對(duì)比度的圖像上比MSER效果更好,而且獲得的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,候選范圍大大縮小,提高了算法的效率。

為了提高所獲得的候選連通區(qū)域的質(zhì)量,微軟亞洲研究院團(tuán)隊(duì)決定增加一個(gè)算法環(huán)節(jié)去增強(qiáng)CER。尤其在圖像模糊、分辨率低或者噪聲較多時(shí),提取出來(lái)的CER有可能會(huì)含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會(huì)使得后面的文字/非文字分類問(wèn)題變得更為復(fù)雜。

算法優(yōu)化的另一個(gè)特點(diǎn),是采用基于感知的光照不變(Perception-based Illumination Invariant, PII)顏色空間中的顏色信息去增強(qiáng)CER,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到Color-enhanced CER。該顏色空間具有視覺(jué)感知一致性,而且對(duì)光照不敏感,更接近人眼對(duì)顏色的判斷。


受噪聲影響的CER示例

在實(shí)際操作中,并不是每個(gè)CER都需要通過(guò)顏色信息來(lái)增強(qiáng),因?yàn)橛泻芏郈ER本身顏色均勻,沒(méi)有噪聲,尤其是在圖片質(zhì)量很高的時(shí)候。因此,在對(duì)CER進(jìn)行增強(qiáng)操作之前我們會(huì)先判斷該CER是否需要增強(qiáng)操作,以減少不必要的計(jì)算復(fù)雜度。


對(duì)CER的顏色增強(qiáng)效果示例


算法提取出來(lái)的候選連通區(qū)域結(jié)果示例

階段②:基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法

當(dāng)獲得了高質(zhì)量的候選連通區(qū)域,就需要對(duì)其中的字符進(jìn)行分辨,確定其是否為文字或非文字,微軟亞洲研究院團(tuán)隊(duì)提出了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,比以往的算法更加有效。

該算法根據(jù)文字本身的特性采用分治策略將原始問(wèn)題空間劃分為5個(gè)子空間,每個(gè)子空間對(duì)應(yīng)一類文字樣本,分別命名為L(zhǎng)ong類,Thin類,Fill類,Square-large類和 Square-small類(如下圖所示),于是每個(gè)候選連通區(qū)域被劃分到這5類中的一種。


文字類問(wèn)題空間劃分示例

在每個(gè)子空間中,微軟亞洲研究院團(tuán)隊(duì)利用無(wú)歧義學(xué)習(xí)策略訓(xùn)練一個(gè)相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,我們可以將該神經(jīng)網(wǎng)絡(luò)看作是一個(gè)黑盒子,在經(jīng)過(guò)大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。

每次分類動(dòng)作包括兩個(gè)階段——預(yù)剪枝(Pre-pruning)階段和驗(yàn)證(Verification)階段。在預(yù)剪枝階段,分類器的任務(wù)是盡可能濾除無(wú)歧義的非文字候選連通區(qū)域;在驗(yàn)證階段,則通過(guò)引入更多信息來(lái)消除孤立連通區(qū)域的歧義性,從而進(jìn)一步濾除有歧義的非文字候選連通區(qū)域。

改進(jìn)的有效性得到了驗(yàn)證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國(guó)際模式識(shí)別大會(huì)(ICPR)上,微軟亞洲研究院團(tuán)隊(duì)公布的研究成果在自然場(chǎng)景文字檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR-2013測(cè)試集)上取得了92.1%的檢測(cè)精度和92.3%的召回率。此前業(yè)界最好技術(shù)的檢測(cè)精度是88.5%,而召回率只有66.5%,多年來(lái)這些數(shù)字每年增長(zhǎng)只有幾個(gè)百分點(diǎn)。

應(yīng)用前景分析

人類需求牽引科技發(fā)展走到今天,智慧的無(wú)限延伸決定了世界的無(wú)限潛能。10年前的簡(jiǎn)單通訊工具手機(jī)如今已成為智慧生活的伴侶,曾經(jīng)只被掃描儀應(yīng)用的OCR技術(shù)亦已煥發(fā)新機(jī)。隨著OCR研究工作的不斷突破,云計(jì)算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,以及智能眼鏡、可穿戴設(shè)備等智能設(shè)備的推陳出新,OCR的應(yīng)用也將充滿無(wú)限機(jī)會(huì)、無(wú)限可能性。

我們也可以設(shè)想一下OCR在未來(lái)工作中的應(yīng)用場(chǎng)景:每次工作會(huì)議后,無(wú)需再把白板上的討論內(nèi)容抄寫下來(lái),然后群發(fā)郵件布置任務(wù),前端只要將白板用手機(jī)等智能設(shè)備拍照留存,后端可以對(duì)其進(jìn)行實(shí)時(shí)分析和處理,系統(tǒng)便能自動(dòng)識(shí)別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項(xiàng)自動(dòng)存放到各自的電子日歷中。

事實(shí)上,基于微軟亞洲研究院的OCR核心技術(shù),微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過(guò)視覺(jué)計(jì)算技術(shù)自動(dòng)對(duì)圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對(duì)圖片進(jìn)行文字識(shí)別,隨后用戶就可以擁有一個(gè)可編輯、可搜索的數(shù)字文件,這為上述未來(lái)應(yīng)用場(chǎng)景打下了基礎(chǔ)。

作者簡(jiǎn)介:

霍強(qiáng)博士,微軟亞洲研究院首席研究員

Qiang Huo is a Principal Research Manager of Speech Group in Microsoft Research Asia (MSRA), Beijing, China. Prior to joining MSRA in August 2007, he had been a faculty member at the Department of Computer Science, The University of Hong Kong since 1998. From 1995 to 1997, Dr. Huo worked at Advanced Telecommunications Research Institute (ATR) in Kyoto, Japan. In the past 30 years, he has been doing research and making contributions in the areas of speech recognition, handwriting recognition, OCR, gesture recognition, biometric-based user authentication, hardware design for speech and image processing.?

總結(jié)

以上是生活随笔為你收集整理的模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。