A Survey on Optical Character Recognition System 光学字符识别系统综述
摘要
??光學字符識別(OCR)是近年來研究的熱點。它被定義為將文檔圖像數字化為其組成字符的過程。盡管經過幾十年的深入研究,開發與人類能力相當的OCR仍然是一個開放的挑戰。由于這種挑戰性,工業界和學術界的研究者將目光投向了光學字符識別。在過去的幾年里,從事字符識別研究的學術實驗室和公司數量急劇增加。本研究旨在總結OCR領域迄今為止的研究成果。概述了OCR的各個方面,并討論了解決OCR問題的相應建議。
關鍵字:字符識別,文檔圖像分析,OCR, OCR調查,分類
1.介紹
??光學字符識別(OCR)是一種將打印文本和圖像轉換成數字化形式以便機器操作的軟件,它不同于人腦,人腦能夠非常容易地從圖像中識別文本/字符,機器沒有足夠的智能來感知圖像中的信息。因此,大量的研究工作被提出,試圖將文檔圖像轉換成機器可以理解的格式。
2. 文獻綜述
??字符識別不是一個新問題,但它的根源可以追溯到計算機發明之前的系統。最早的OCR系統不是計算機,而是能夠識別字符的機械裝置,但速度很慢,精度很低。1951年,M.Sheppard發明了一種閱讀機器人GISMO,它被認為是現代OCR的最早研究成果[1]。GISMO可以一個接一個地閱讀印刷頁上的音樂符號和單詞。但是,它只能識別23個字符。這臺機器還可以復制打字的頁面。1954年,J.Rainbow發明了一種機器,每分鐘可以讀取一個大寫的打字(typewritten)英文字符。早期的OCR系統由于錯誤和識別速度慢而受到批評。因此,60、70年代對這一課題的研究并不多,只有政府機構和銀行、報紙、航空公司等大公司的研究。
??由于與識別相關的復雜性,人們認為應該有標準化的OCR字體來減輕OCR識別的任務。因此,OCRA和OCRB在1970年由ANSI和EMCA開發,提供了相對可接受的識別率[2]。
??近三十年來,國內外對OCR進行了大量的研究。這導致了文檔圖像分析(DIA)、多語言、手寫和omni字體OCRs的出現[2]。盡管進行了這些廣泛的研究工作,但機器可靠閱讀文本的能力仍然遠遠低于人類。因此,目前的OCR研究是為了提高在無約束環境下打印/書寫的不同風格文檔的OCR的準確性和速度。目前還沒有任何開源或商業軟件可用于烏爾都語或信德語等復雜語言。
??近三十年來,國內外對OCR進行了大量的研究。這導致了文檔圖像分析(DIA)、多語言、手寫和全字體OCRs的出現[2]。盡管進行了這些廣泛的研究工作,但機器可靠閱讀文本的能力仍然遠遠低于人類。因此,目前的OCR研究是為了提高在無約束環境下打印/書寫的不同風格文檔的OCR的準確性和速度。目前還沒有任何開源或商業軟件可用于烏爾都語或信德語等復雜語言。
3.光學字符識別(OCR)系統的類型
??近年來,對OCR的研究有很多方向,本節討論了這些研究所產生的不同類型的OCR系統。我們可以根據圖像采集模式、字符連接性、字體限制等對這些系統進行分類。Fig. 1對字符識別系統進行分類。
??根據輸入的類型,OCR系統可以分為手寫體識別和機器印刷體識別。后者是相對簡單的問題,因為字符通常具有統一的尺寸,并且可以預測字符在頁面上的位置[3]。
??手寫體字符識別是一項非常困難的工作,因為用戶的書寫風格不同,而且同一個字符的筆跡運動也不同。這些系統可分為兩個子類,即在線和離線系統。前者在用戶編寫字符時實時執行。它們不那么復雜,因為它們可以捕捉基于時間或即時的信息,即速度(speed)、速度(velocity)、筆畫( strokes)的數量、筆畫的書寫方向等。此外,由于筆的軌跡只有幾個像素寬,因此不需要細化技術。離線識別系統對靜態數據進行操作,即輸入為位圖。因此,很難進行識別。
??已經有許多在線系統可供使用,因為它們更容易開發,具有良好的準確性,并可用于平板電腦和PDAs的輸入[4]。
??OCR能夠實現大量有用的應用,早期OCR已經被用于郵件分揀、銀行支票閱讀和簽名驗證[5],此外,OCR還可以被組織用于在大量數據以打印形式存在的地方進行自動表單處理。OCR的其他用途包括處理公用事業賬單、護照驗證、筆計算和自動車牌識別等[6]。OCR的另一個有用的應用是幫助盲人和視力受損的人閱讀文本[7]。
4.OCR的主要階段
??OCR過程是一個由不同階段組成的復合活動。這些階段如下:
圖像采集:從掃描儀或照相機等外部來源獲取圖像。
預處理:圖像采集完成后,可以進行不同的預處理步驟,以提高圖像質量。在不同的預處理技術中,有去噪、閾值化和提取圖像基線等。
字符分割:在這一步中,將圖像中的字符分離出來,以便將它們傳遞給識別引擎。其中最簡單的技術是連接組件分析和投影輪廓可以使用。然而,在復雜的情況下,字符重疊/斷開或圖像中存在一些噪聲。在這些情況下,采用了先進的字符分割技術。
特征提取:對分割后的字符進行特征提取。基于這些特征,字符被識別出來。可以從圖像中提取的不同類型的特征是矩等。所提取的特征應該是有效計算的,最小化類內變化并最大化類間變化。
字符分類:這一步將分割圖像的特征映射到不同的類別(categories)或類別(classes)。有不同類型的字符分類技術。結構分類技術是基于從圖像結構中提取的特征,利用不同的決策規則對字符進行分類。統計模式分類方法是基于概率模型等統計方法對字符進行分類。
后處理:分類后,結果不是100%正確,特別是對于復雜的語言。可以采用后處理技術來提高OCR系統的精度。這些技術利用自然語言處理、幾何和語言上下文來糾正OCR結果中的錯誤。例如,后處理器可以使用拼寫檢查器和字典、概率模型(如馬爾可夫鏈和n-連字符串)來提高準確性。后處理器的時間和空間復雜度不應該很高,并且后處理器的應用不應該產生新的錯誤。
a.圖像采集
??圖像采集是OCR的初始步驟,它包括獲取數字圖像并將其轉換成易于計算機處理的適當形式,這包括圖像的量化和壓縮[8]。量化的一個特殊情況是二值化,它只涉及兩級圖像。在大多數情況下,二值圖像足以描述圖像的特征,壓縮本身可以是有損的或損失較小的。文獻[9]概述了各種圖像壓縮技術。
b.預處理
??除了圖像采集之外,還有旨在提高圖像質量的預處理。預處理技術之一是閾值化,目的是基于某個閾值對圖像進行二值化[9]。閾值可以在本地或全局級別設置。
??可以應用不同類型的濾波器,如均值、最小和最大濾波器。或者,可以執行不同的形態學操作,例如腐蝕(erosion)、膨脹(dilation)、開和閉。
??預處理的一個重要部分是找出文檔中的傾斜。不同的傾斜估計方法包括:投影輪廓法、Hough變換法、最近鄰法。
??在某些情況下,圖像的細化也在應用后期階段之前執行[10]。最后,文檔中的文本行也可以作為預處理階段的一部分找到。這可以基于像素的投影或聚類來完成。
c.字符分割
??在這一步中,圖像在進入分類階段之前被分割成字符。分割可以作為分類階段的副產品顯式或隱式地執行[11]。此外,OCR的其他階段可以幫助提供有助于圖像分割的上下文信息。
d.特征提取
??在這一階段中,提取字符的各種特征,這些特征唯一地識別字符。如何選擇合適的特征以及所使用的特征總數是一個重要的研究問題。可以使用不同類型的特征,例如圖像本身、幾何特征(循環、筆劃)和統計特征(矩)。最后,可以使用主成分分析等各種技術來降低圖像的維數。
e.分類
??它被定義為將一個字符分類為其適當類別的過程。分類的結構方法是基于圖像成分中存在的關系。統計方法是基于使用判別函數對圖像進行分類。統計分類方法有貝葉斯分類法、決策樹分類法、神經網絡分類法、最近鄰分類法等[12]。最后,還有一些基于句法方法的分類器,它們采用語法方法從圖像的子成分合成圖像。
f.后處理
??一旦對字符進行了分類,就可以使用各種方法來提高OCR結果的準確性。其中一種方法是使用多個分類器對圖像進行分類。該分類器可用于級聯(串聯 cascading)、并行或層次(hierarchical)結構。然后可以使用各種方法組合分類器的結果。
??為了改進OCR結果,還可以執行上下文分析。圖像的幾何和文檔上下文有助于減少錯誤的可能性。基于馬爾可夫模型和字典的詞法處理也有助于提高OCR〔12〕的結果。
4.結論
??本文綜述了OCR的各種技術。OCR不是一個原子( atomic)過程,它包括采集、預處理、分割、特征提取、分類和后處理等各個階段。本文詳細討論了每一個步驟。結合這些技術,可以開發出一個高效的OCR系統。OCR系統還可以用于不同的實際應用,如車牌識別、智能圖書館和其他各種實時應用。
??盡管在OCR方面進行了大量的研究,但對于阿拉伯語、信德語和烏爾都語等語言的字符識別仍然是一個開放的挑戰。對這些語言的OCR技術的概述已經作為一項未來的工作進行了規劃。另一個重要的研究領域是多語種字符識別系統。最后,OCR系統在實際應用中的應用仍然是一個活躍的研究領域。
總結
以上是生活随笔為你收集整理的A Survey on Optical Character Recognition System 光学字符识别系统综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: h5、select下拉框右边加图标,深度
- 下一篇: Kalman滤波在船舶GPS导航定位系统