當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)

發(fā)布時間：2024/3/13 编程问答 69 豆豆

生活随笔收集整理的這篇文章主要介紹了【CIPS 2016】(17章)文字识别 (研究进展、现状趋势) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CIPS 2016 筆記整理

《中文信息處理發(fā)展報告（2016）》是中國中文信息學(xué)會召集專家對本領(lǐng)域?qū)W科方向和前沿技術(shù)的一次梳理，官方定位是深度科普，旨在向政府、企業(yè)、媒體等對中文信息處理感興趣的人士簡要介紹相關(guān)領(lǐng)域的基本概念和應(yīng)用方向，向高校、科研院所和高技術(shù)企業(yè)中從事相關(guān)工作的專業(yè)人士介紹相關(guān)領(lǐng)域的前沿技術(shù)和發(fā)展趨勢。

本專欄主要是針對《中文信息處理發(fā)展報告（2016）》做的筆記知識整理，方便日后查看。

注意：本筆記不涉及任何代碼以及原理分析研究探討，主要是對NLP的研究進(jìn)展、現(xiàn)狀以及發(fā)展趨勢有一個清晰的了解，方便以后更加深入的研究。

ps：我已將思維導(dǎo)圖以及Markdown版本、pdf版本上傳到我的GitHub中，有需要的可以自行查看：

https://github.com/changliang5811/CIPS-2016.git

傳送門：

CIPS 2016(1-3章)——詞法、句法、語義、語篇分析
CIPS 2016(4-5章)——語言認(rèn)知模型、語言表示以及深度學(xué)習(xí)
CIPS 2016(6-7章)——知識圖譜、文本分類與聚類
CIPS 2016(8-10章)——信息抽取、情感分析&自動文摘
CIPS 2016(11-12章)——信息檢索、信息推薦與過濾
CIPS 2016(13-14章)——自動問答、機(jī)器翻譯
CIPS 2016(15章)——社會媒體處理
CIPS 2016(16章)——語音技術(shù)

文章目錄

CIPS 2016 筆記整理
前言
Chapter 17 文字識別
- 什么是文字識別？
- - 文字識別的方式按照文檔的媒體形式分為兩大類
  - 關(guān)鍵科學(xué)問題
- 研究內(nèi)容
- - 流程1:文檔圖像預(yù)處理
  - 流程2:版面分析
  - 流程3:文本行識別（核心）
  - 流程4:后處理和應(yīng)用
- 主要方法&現(xiàn)狀
- - 文檔圖像預(yù)處理和版面分析
  - 自然場景文本檢測與識別
  - 手寫文本行識別
  - 文檔檢索
  - 最新應(yīng)用走勢
- 未來展望
- - 文字識別的認(rèn)知機(jī)理和受認(rèn)知啟發(fā)的文字識別方法
  - 文檔識別模型的小樣本學(xué)習(xí)與自適應(yīng)
  - 文檔分析與識別的結(jié)構(gòu)化學(xué)習(xí)與優(yōu)化模型
  - 應(yīng)用需求
總結(jié)
彩蛋

前言

文字識別（Character Recognition），廣義地稱為文檔分析（Document Analysis），是對文檔圖像中的文字進(jìn)行分割、識別，將文檔從圖像轉(zhuǎn)換為電子文本的技術(shù)。具體內(nèi)容包括文檔圖像預(yù)處理、版面分析、字符切分、字符識別、文本行識別等。文字識別技術(shù)是中文信息處理中非常重要的一環(huán)，因為大量的文檔以紙張（如書籍、報紙、檔案、票據(jù)）形式存在，而年代較早的紙張文檔都沒有對應(yīng)的電子文件，只有通過文字識別轉(zhuǎn)換成電子文本后才能對其內(nèi)容進(jìn)行語義分析。

文字識別應(yīng)用在上世紀(jì) 90 年代中期達(dá)到一個高潮。當(dāng)時模式識別方法和技術(shù)逐漸成熟，個人計算機(jī)和掃描儀迅速普及，為文字識別技術(shù)推廣應(yīng)用提供了良好條件。最近五年，隨著數(shù)碼相機(jī)和智能手機(jī)的普及使隨時隨地拍照識別成為可能，加上技術(shù)的進(jìn)一步發(fā)展，文字識別迎來了一個新的應(yīng)用高潮，不斷產(chǎn)生新的應(yīng)用模式和技術(shù)需求。

Chapter 17 文字識別

（研究進(jìn)展、現(xiàn)狀&趨勢）

什么是文字識別？

文字識別（Character Recognition），廣義地稱為文檔分析（Document Analysis），是對文檔圖像中的文字進(jìn)行分割、識別，將文檔從圖像轉(zhuǎn)換為電子文本的技術(shù)。

具體內(nèi)容包括文檔圖像預(yù)處理、版面分析、字符切分、字符識別、文本行識別（核心問題，難點(diǎn)）等。

文本行是文檔圖像的基本和相對容易分割的單元，因此文本行識別是最核心、也最難的問題，因為字符切分和字符識別不能分開，而且同時要考慮上下文信息（語言模型和幾何上下文）

文字識別的方式按照文檔的媒體形式分為兩大類

脫機(jī)（（offline））文字識別：對已經(jīng)存在于紙張或物體表面（如建筑物標(biāo)牌、交通標(biāo)志）的文字進(jìn)行提取和識別，處理對象是通過掃描或拍照得到的文檔圖像。根據(jù)文字的書體又分為印刷體文字識別和手寫體文字識別
聯(lián)機(jī)（online）文字識別：對書寫過程中采集到的筆劃軌跡（如觸屏?xí)鴮憽⑹謱懓鍟鴮憽?shù)碼筆書寫）進(jìn)行文字提取和識別

關(guān)鍵科學(xué)問題

難點(diǎn)1:字符切分和識別的復(fù)雜性。文本行圖像中由于字符間粘連、有些字符多部首、多語種混合，加上手寫體的字符變形、大小和間隔不均勻等因素，字符在被識別之前很難準(zhǔn)確分開
難點(diǎn)2:文檔版面分析的復(fù)雜性。圖像背景復(fù)雜，文本段落排版的多樣性，文本行方向多樣性（水平、垂直、傾斜，甚至有彎曲），圖文混合（包括文本、圖形、表格、公式、特殊符號等）。

研究內(nèi)容

流程1:文檔圖像預(yù)處理

研究內(nèi)容：比如通過圖像增強(qiáng)、復(fù)原等手段來改善圖像的對比度和校正變形

流程2:版面分析

研究內(nèi)容：自然場景圖像中文本檢測與定位；準(zhǔn)確分割文本段落和文本行，區(qū)別和分割文本與圖形、公式、表格、符號等，從而方便后續(xù)的文本行識別和公式、符號識別

流程3:文本行識別（核心）

對文本行圖像進(jìn)行字符切分和識別，得到對應(yīng)的電子文本（字符串）。
研究內(nèi)容：字符識別器設(shè)計（包括特征提取、分類器設(shè)計和學(xué)習(xí)），字符過切分，幾何上下文建模，語言上下文建模，上下文融合模型，文本行序列表示和整體識別模型等

流程4:后處理和應(yīng)用

后處理的目的：目的：一是根據(jù)文檔中不同元素（文本、圖形、符號）的幾何關(guān)系和語義關(guān)系對識別結(jié)果進(jìn)行消歧和糾錯，二是結(jié)合識別結(jié)果和幾何關(guān)系對文檔進(jìn)行重構(gòu)得到結(jié)構(gòu)化電子文檔（如 PDF）
應(yīng)用：除了語義分析和信息提取，文檔檢索是一個比較普遍可行的應(yīng)用，因為檢索不需要文字識別精度很高

主要方法&現(xiàn)狀

文檔圖像預(yù)處理和版面分析

存在問題1：背景噪聲
- 歷史文檔因紙張陳舊、污損等原因，即使是掃描的圖像也呈現(xiàn)嚴(yán)重的背景噪聲。因此如何將文本與背景分開成為一個重要的研究問題。
- 解決辦法：基于局部對比度、梯度和邊緣信息的自適應(yīng)二值化方法；基于圖模型（如馬爾科夫隨機(jī)場、條件隨機(jī)場）結(jié)合像素分類和空間上下文的方法
存在問題2:圖像校正
- 拍照文檔的幾何校正和光照矯正（光照不均、幾何變形）
- 采用立體視覺模型和幾何分析模型
版面分析
- 版面分析將文檔圖像分割為文本段落、圖形、表格等區(qū)域
- 基于前景的方法
  - 將像素或連通部件進(jìn)行逐級聚合，得到分本行和段落，并且對連通部件或區(qū)域進(jìn)行分類判斷是文本或圖形
  - 文檔譜（Docstrum）方法、基于塊鄰接（Block Adjacency Graph, BAG）的方法，基于最小張成樹（Minimal Spanning Tree, MST）的聚類的方法、基于 Hough 變換的方法、基于紋理分割的方法等
- 基于背景的方法
  - 對文檔圖像進(jìn)行自上而下的劃分，如通過投影找到欄、段落、文本行之間的空白
  - 遞歸水平-垂直切割（Recursive X-Y Cut）、Voronoi Diagram方法、背景矩形（White Space）分析等

自然場景文本檢測與識別

文本檢測
- 基于紋理（區(qū)域分類）
  - 對圖像進(jìn)行多尺度滑動窗分析，判斷每個窗口的紋理是否為文本，在此基礎(chǔ)上對圖像進(jìn)行分割
- 基于連通部件
  - 先通過圖像區(qū)域分割或邊緣分析提取連通部件，然后通過幾何分析或分類器判斷每個連通部件為文本或非文本，最后將文本連通部件聚合為文本行
  - 主流方法：用最大穩(wěn)定極值區(qū)域（MSER）方法提取候選連通部件，對連通部件進(jìn)行過濾、聚合得到文本行
文本識別
- 在文本檢測定位并得到二值圖像的基礎(chǔ)上用集成字符切分、分類器和上下文的文本行識別傳統(tǒng)方法進(jìn)行識別
- 把文本檢測和識別同時進(jìn)行，即用字符識別器進(jìn)行文本檢測，稱為 End-to-End 方法
- 在文本定位基礎(chǔ)上，不用二值化直接對彩色圖像進(jìn)行字符切分和識別（結(jié)合上下文）的方法也取得了優(yōu)良的性能，尤其是采用深度神經(jīng)網(wǎng)絡(luò)的方法

手寫文本行識別

手寫文本行圖像中字符難以在識別之前被準(zhǔn)確切分，因此字符切分和識別需要同時進(jìn)行，或者對文本行圖像整體進(jìn)行識別。
基于過切分（盡可能將不同字符分開，每個片段為字符或字符的一部分）和候選切分-識別路徑評價搜索的方法。
在上述框架下，基于貝葉斯決策的上下文融合方法和基于半馬爾科夫條件隨機(jī)場的方法都取得了較高的字符切分和識別正確率。除了融合方法，字符分類器的精度、幾何上下文和語言上下文的表示對文本行識別性能有決定性影響。
深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）把手寫漢字識別的精度提升了一大步。它可作為分類器集成在文本行識別系統(tǒng)中，提高文本行識別性能。

文檔檢索

從文檔數(shù)據(jù)庫中查找與用戶關(guān)心的主題或關(guān)鍵詞匹配的文檔圖像或區(qū)域
基于文字識別的檢索
- 依賴文字識別的精度，在識別精度較低的情況下檢索性能會明顯下降
文字識別無關(guān)的檢索
- 大部分工作是對用戶查詢的關(guān)鍵詞進(jìn)行檢索
- 關(guān)鍵詞檢索方法
  - 基于圖像查詢的方法（Query-by-Example）
  - 基于文本查詢的方法（Query-by-Keyboard）
    
    一般需要有字符或詞的形狀模型，用不同字體和書寫風(fēng)格的樣本訓(xùn)練后具有較好的形變適應(yīng)能力，而且用鍵盤輸入文本查詢的方式在使用上更方便。
發(fā)展：把詞圖像和文本嵌入共同特征空間的方法，可同時用于詞識別和關(guān)鍵詞檢索

未來展望

文字識別的認(rèn)知機(jī)理和受認(rèn)知啟發(fā)的文字識別方法

目前的自動檢測和識別性能跟人相比有較大差距。因此，需要從人的感知和認(rèn)知機(jī)理得到啟發(fā)設(shè)計新的處理方法

文檔識別模型的小樣本學(xué)習(xí)與自適應(yīng)

文檔分析與識別的結(jié)構(gòu)化學(xué)習(xí)與優(yōu)化模型

文檔中的各種元素（文本、圖像、表格、符號等）相互關(guān)聯(lián)，需要用一個結(jié)構(gòu)化模型來表示他們之間的相互關(guān)系，充分利用幾何上下文關(guān)系和語言上下文關(guān)系來提高各個元素識別的準(zhǔn)確性

應(yīng)用需求

圖文混合、印刷和手寫混合的文檔識別與結(jié)構(gòu)理解
網(wǎng)絡(luò)文檔圖像識別與檢索
多語言文檔分析與識別
歷史文檔（古籍）的識別與檢索

總結(jié)

近幾年，文字識別技術(shù)得到了快速發(fā)展。這得益于兩方面的因素。一方面，互聯(lián)網(wǎng)和移動通信、便攜式成像設(shè)備的推廣應(yīng)用帶來了很多新的文字識別應(yīng)用需求。另一方面，模式識別、機(jī)器學(xué)習(xí)、計算機(jī)視覺等領(lǐng)域理論方法的發(fā)展給文字識別技術(shù)研發(fā)產(chǎn)生了很多啟發(fā)和促進(jìn)。

由上可知，文字識別依舊存在很多待解決的問題。文字識別技術(shù)既有大量的應(yīng)用需求，又有一系列的理論和技術(shù)難題，需要投入大量的研發(fā)力量，進(jìn)一步推動學(xué)術(shù)研究和應(yīng)用的發(fā)展。

彩蛋

The last blog about CIPS（完結(jié)篇）：信息處理，包括多模態(tài)信息處理（Chapter 18）、醫(yī)療健康信息處理（Chapter 19）、少數(shù)民族語言文字信息處理（Chapter 20）。

總結(jié)

以上是生活随笔為你收集整理的【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python快速实现简单的图像人脸融合
下一篇：关于类的静态的模板函数的使用方式

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)

CIPS 2016 筆記整理

文章目錄

前言

Chapter 17 文字識別

什么是文字識別？

文字識別的方式按照文檔的媒體形式分為兩大類

關(guān)鍵科學(xué)問題

研究內(nèi)容

流程1:文檔圖像預(yù)處理

流程2:版面分析

流程3:文本行識別（核心）

流程4:后處理和應(yīng)用

主要方法&現(xiàn)狀

文檔圖像預(yù)處理和版面分析

自然場景文本檢測與識別

手寫文本行識別

文檔檢索

最新應(yīng)用走勢

未來展望

文字識別的認(rèn)知機(jī)理和受認(rèn)知啟發(fā)的文字識別方法

文檔識別模型的小樣本學(xué)習(xí)與自適應(yīng)

文檔分析與識別的結(jié)構(gòu)化學(xué)習(xí)與優(yōu)化模型

應(yīng)用需求

總結(jié)

彩蛋

總結(jié)