【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)
CIPS 2016 筆記整理
《中文信息處理發(fā)展報告(2016)》是中國中文信息學(xué)會召集專家對本領(lǐng)域?qū)W科方向和前沿技術(shù)的一次梳理,官方定位是深度科普,旨在向政府、企業(yè)、媒體等對中文 信息處理感興趣的人士簡要介紹相關(guān)領(lǐng)域的基本概念和應(yīng)用方向,向高校、科研院所和 高技術(shù)企業(yè)中從事相關(guān)工作的專業(yè)人士介紹相關(guān)領(lǐng)域的前沿技術(shù)和發(fā)展趨勢。
本專欄主要是針對《中文信息處理發(fā)展報告(2016)》做的筆記知識整理,方便日后查看。
注意:本筆記不涉及任何代碼以及原理分析研究探討,主要是對NLP的研究進(jìn)展、現(xiàn)狀以及發(fā)展趨勢有一個清晰的了解,方便以后更加深入的研究。
ps:我已將思維導(dǎo)圖以及Markdown版本、pdf版本上傳到我的GitHub中,有需要的可以自行查看:
https://github.com/changliang5811/CIPS-2016.git
傳送門:
CIPS 2016(1-3章)——詞法、句法、語義、語篇分析
CIPS 2016(4-5章)——語言認(rèn)知模型、語言表示以及深度學(xué)習(xí)
CIPS 2016(6-7章)——知識圖譜、文本分類與聚類
CIPS 2016(8-10章)——信息抽取、情感分析&自動文摘
CIPS 2016(11-12章)——信息檢索、信息推薦與過濾
CIPS 2016(13-14章)——自動問答、機(jī)器翻譯
CIPS 2016(15章)——社會媒體處理
CIPS 2016(16章)——語音技術(shù)
文章目錄
- CIPS 2016 筆記整理
- 前言
- Chapter 17 文字識別
- 什么是文字識別?
- 文字識別的方式按照文檔的媒體形式分為兩大類
- 關(guān)鍵科學(xué)問題
- 研究內(nèi)容
- 流程1:文檔圖像預(yù)處理
- 流程2:版面分析
- 流程3:文本行識別(核心)
- 流程4:后處理和應(yīng)用
- 主要方法&現(xiàn)狀
- 文檔圖像預(yù)處理和版面分析
- 自然場景文本檢測與識別
- 手寫文本行識別
- 文檔檢索
- 最新應(yīng)用走勢
- 未來展望
- 文字識別的認(rèn)知機(jī)理和受認(rèn)知啟發(fā)的文字識別方法
- 文檔識別模型的小樣本學(xué)習(xí)與自適應(yīng)
- 文檔分析與識別的結(jié)構(gòu)化學(xué)習(xí)與優(yōu)化模型
- 應(yīng)用需求
- 總結(jié)
- 彩蛋
前言
文字識別(Character Recognition),廣義地稱為文檔分析(Document Analysis),是對文檔圖像中的文字進(jìn)行分割、識別,將文檔從圖像轉(zhuǎn)換為電子文本的技術(shù)。具體內(nèi)容包括文檔圖像預(yù)處理、版面分析、字符切分、字符識別、文本行識別等。文字識別技術(shù)是中文信息處理中非常重要的一環(huán),因為大量的文檔以紙張(如書籍、報紙、檔案、票據(jù))形式存在,而年代較早的紙張文檔都沒有對應(yīng)的電子文件,只有通過文字識別轉(zhuǎn)換成電子文本后才能對其內(nèi)容進(jìn)行語義分析。
文字識別應(yīng)用在上世紀(jì) 90 年代中期達(dá)到一個高潮。當(dāng)時模式識別方法和技術(shù)逐漸成熟,個人計算機(jī)和掃描儀迅速普及,為文字識別技術(shù)推廣應(yīng)用提供了良好條件。最近五年,隨著數(shù)碼相機(jī)和智能手機(jī)的普及使隨時隨地拍照識別成為可能,加上技術(shù)的進(jìn)一步發(fā)展,文字識別迎來了一個新的應(yīng)用高潮,不斷產(chǎn)生新的應(yīng)用模式和技術(shù)需求。
Chapter 17 文字識別
(研究進(jìn)展、現(xiàn)狀&趨勢)
什么是文字識別?
文字識別(Character Recognition),廣義地稱為文檔分析(Document Analysis),是對文檔圖像中的文字進(jìn)行分割、識別,將文檔從圖像轉(zhuǎn)換為電子文本的技術(shù)。
具體內(nèi)容包括文檔圖像預(yù)處理、版面分析、字符切分、字符識別、文本行識別(核心問題,難點(diǎn))等。
文本行是文檔圖像的基本和相對容易分割的單元,因此文本行識別是最核心、也最難的問題,因為字符切分和字符識別不能分開,而且同時要考慮上下文信息(語言模型和幾何上下文)
文字識別的方式按照文檔的媒體形式分為兩大類
- 脫機(jī)((offline))文字識別:對已經(jīng)存在于紙張或物體表面(如建筑物標(biāo)牌、交通標(biāo)志)的文字進(jìn)行提取和識別,處理對象是通過掃描或拍照得到的文檔圖像。根據(jù)文字的書體又分為印刷體文字識別和手寫體文字識別
- 聯(lián)機(jī)(online)文字識別:對書寫過程中采集到的筆劃軌跡(如觸屏?xí)鴮憽⑹謱懓鍟鴮憽?shù)碼筆書寫)進(jìn)行文字提取和識別
關(guān)鍵科學(xué)問題
- 難點(diǎn)1:字符切分和識別的復(fù)雜性。文本行圖像中由于字符間粘連、有些字符多部首、多語種混合,加上手寫體的字符變形、大小和間隔不均勻等因素,字符在被識別之前很難準(zhǔn)確分開
- 難點(diǎn)2:文檔版面分析的復(fù)雜性。圖像背景復(fù)雜,文本段落排版的多樣性,文本行方向多樣性(水平、垂直、傾斜,甚至有彎曲),圖文混合(包括文本、圖形、表格、公式、特殊符號等)。
研究內(nèi)容
流程1:文檔圖像預(yù)處理
- 研究內(nèi)容:比如通過圖像增強(qiáng)、復(fù)原等手段來改善圖像的對比度和校正變形
流程2:版面分析
- 研究內(nèi)容:自然場景圖像中文本檢測與定位;準(zhǔn)確分割文本段落和文本行,區(qū)別和分割文本與圖形、公式、表格、符號等,從而方便后續(xù)的文本行識別和公式、符號識別
流程3:文本行識別(核心)
- 對文本行圖像進(jìn)行字符切分和識別,得到對應(yīng)的電子文本(字符串)。
- 研究內(nèi)容:字符識別器設(shè)計(包括特征提取、分類器設(shè)計和學(xué)習(xí)),字符過切分,幾何上下文建模,語言上下文建模,上下文融合模型,文本行序列表示和整體識別模型等
流程4:后處理和應(yīng)用
- 后處理的目的:目的:一是根據(jù)文檔中不同元素(文本、圖形、符號)的幾何關(guān)系和語義關(guān)系對識別結(jié)果進(jìn)行消歧和糾錯,二是結(jié)合識別結(jié)果和幾何關(guān)系對文檔進(jìn)行重構(gòu)得到結(jié)構(gòu)化電子文檔(如 PDF)
- 應(yīng)用:除了語義分析和信息提取,文檔檢索是一個比較普遍可行的應(yīng)用,因為檢索不需要文字識別精度很高
主要方法&現(xiàn)狀
文檔圖像預(yù)處理和版面分析
-
存在問題1:背景噪聲
- 歷史文檔因紙張陳舊、污損等原因,即使是掃描的圖像也呈現(xiàn)嚴(yán)重的背景噪聲。因此如何將文本與背景分開成為一個重要的研究問題。
- 解決辦法:基于局部對比度、梯度和邊緣信息的自適應(yīng)二值化方法;基于圖模型(如馬爾科夫隨機(jī)場、條件隨機(jī)場)結(jié)合像素分類和空間上下文的方法
-
存在問題2:圖像校正
- 拍照文檔的幾何校正和光照矯正(光照不均、幾何變形)
- 采用立體視覺模型和幾何分析模型
-
版面分析
-
版面分析將文檔圖像分割為文本段落、圖形、表格等區(qū)域
-
基于前景的方法
- 將像素或連通部件進(jìn)行逐級聚合,得到分本行和段落,并且對連通部件或區(qū)域進(jìn)行分類判斷是文本或圖形
- 文檔譜(Docstrum)方法、基于塊鄰接(Block Adjacency Graph, BAG)的方法,基于最小張成樹(Minimal Spanning Tree, MST)的聚類的方法、基于 Hough 變換的方法、基于紋理分割的方法等
-
基于背景的方法
- 對文檔圖像進(jìn)行自上而下的劃分,如通過投影找到欄、段落、文本行之間的空白
- 遞歸水平-垂直切割(Recursive X-Y Cut)、Voronoi Diagram方法、背景矩形(White Space)分析等
-
自然場景文本檢測與識別
-
文本檢測
-
基于紋理(區(qū)域分類)
- 對圖像進(jìn)行多尺度滑動窗分析,判斷每個窗口的紋理是否為文本,在此基礎(chǔ)上對圖像進(jìn)行分割
-
基于連通部件
- 先通過圖像區(qū)域分割或邊緣分析提取連通部件,然后通過幾何分析或分類器判斷每個連通部件為文本或非文本,最后將文本連通部件聚合為文本行
- 主流方法:用最大穩(wěn)定極值區(qū)域(MSER)方法提取候選連通部件,對連通部件進(jìn)行過濾、聚合得到文本行
-
-
文本識別
- 在文本檢測定位并得到二值圖像的基礎(chǔ)上用集成字符切分、分類器和上下文的文本行識別傳統(tǒng)方法進(jìn)行識別
- 把文本檢測和識別同時進(jìn)行,即用字符識別器進(jìn)行文本檢測,稱為 End-to-End 方法
- 在文本定位基礎(chǔ)上,不用二值化直接對彩色圖像進(jìn)行字符切分和識別(結(jié)合上下文)的方法也取得了優(yōu)良的性能,尤其是采用深度神經(jīng)網(wǎng)絡(luò)的方法
手寫文本行識別
- 手寫文本行圖像中字符難以在識別之前被準(zhǔn)確切分,因此字符切分和識別需要同時進(jìn)行,或者對文本行圖像整體進(jìn)行識別。
- 基于過切分(盡可能將不同字符分開,每個片段為字符或字符的一部分)和候選切分-識別路徑評價搜索的方法。
- 在上述框架下,基于貝葉斯決策的上下文融合方法和基于半馬爾科夫條件隨機(jī)場的方法都取得了較高的字符切分和識別正確率。除了融合方法,字符分類器的精度、幾何上下文和語言上下文的表示對文本行識別性能有決定性影響。
- 深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)把手寫漢字識別的精度提升了一大步。它可作為分類器集成在文本行識別系統(tǒng)中,提高文本行識別性能。
文檔檢索
-
從文檔數(shù)據(jù)庫中查找與用戶關(guān)心的主題或關(guān)鍵詞匹配的文檔圖像或區(qū)域
-
基于文字識別的檢索
- 依賴文字識別的精度,在識別精度較低的情況下檢索性能會明顯下降
-
文字識別無關(guān)的檢索
-
大部分工作是對用戶查詢的關(guān)鍵詞進(jìn)行檢索
-
關(guān)鍵詞檢索方法
-
基于圖像查詢的方法(Query-by-Example)
-
基于文本查詢的方法(Query-by-Keyboard)
一般需要有字符或詞的形狀模型,用不同字體和書寫風(fēng)格的樣本訓(xùn)練后具有較好的形變適應(yīng)能力,而且用鍵盤輸入文本查詢的方式在使用上更方便。
-
-
-
發(fā)展:把詞圖像和文本嵌入共同特征空間的方法,可同時用于詞識別和關(guān)鍵詞檢索
最新應(yīng)用走勢
- 聯(lián)機(jī)手寫圖文混合文檔分析
- 歷史文檔的識別與檢索
- 智能手機(jī)和移動互聯(lián)帶來的拍照文檔識別和網(wǎng)絡(luò)文檔圖像識別
未來展望
文字識別的認(rèn)知機(jī)理和受認(rèn)知啟發(fā)的文字識別方法
- 目前的自動檢測和識別性能跟人相比有較大差距。因此,需要從人的感知和認(rèn)知機(jī)理得到啟發(fā)設(shè)計新的處理方法
文檔識別模型的小樣本學(xué)習(xí)與自適應(yīng)
文檔分析與識別的結(jié)構(gòu)化學(xué)習(xí)與優(yōu)化模型
- 文檔中的各種元素(文本、圖像、表格、符號等)相互關(guān)聯(lián),需要用一個結(jié)構(gòu)化模型來表示他們之間的相互關(guān)系,充分利用幾何上下文關(guān)系和語言上下文關(guān)系來提高各個元素識別的準(zhǔn)確性
應(yīng)用需求
- 圖文混合、印刷和手寫混合的文檔識別與結(jié)構(gòu)理解
- 網(wǎng)絡(luò)文檔圖像識別與檢索
- 多語言文檔分析與識別
- 歷史文檔(古籍)的識別與檢索
總結(jié)
近幾年,文字識別技術(shù)得到了快速發(fā)展。這得益于兩方面的因素。一方面,互聯(lián)網(wǎng)和移動通信、便攜式成像設(shè)備的推廣應(yīng)用帶來了很多新的文字識別應(yīng)用需求。另一方面,模式識別、機(jī)器學(xué)習(xí)、計算機(jī)視覺等領(lǐng)域理論方法的發(fā)展給文字識別技術(shù)研發(fā)產(chǎn)生了很多啟發(fā)和促進(jìn)。
由上可知,文字識別依舊存在很多待解決的問題。文字識別技術(shù)既有大量的應(yīng)用需求,又有一系列的理論和技術(shù)難題,需要投入大量的研發(fā)力量,進(jìn)一步推動學(xué)術(shù)研究和應(yīng)用的發(fā)展。
彩蛋
The last blog about CIPS(完結(jié)篇):信息處理,包括多模態(tài)信息處理(Chapter 18)、醫(yī)療健康信息處理(Chapter 19)、少數(shù)民族語言文字信息處理(Chapter 20)。
總結(jié)
以上是生活随笔為你收集整理的【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python快速实现简单的图像人脸融合
- 下一篇: 关于类的静态的模板函数的使用方式