OCR 脱机手写汉字识别与印刷汉字识别
分享一下我老師大神的人工智能教程。零基礎!通俗易懂!風趣幽默!還帶黃段子!希望你也加入到我們人工智能的隊伍中來!https://blog.csdn.net/jiangjunshow
4 “最后的堡壘”——脫機手寫漢字識別
4.1 攻克堡壘待創新
脫機手寫漢字識別的用途是把手寫字符用字符閱讀器自動輸入計算機,常用于信函分揀、銀行支票識別和統計報表處理以及手寫文稿的自動輸入。
從工作原理上說,脫機手寫漢字識別和印刷漢字識別是一樣的。但是由于手寫漢字字形變化大,上一章中介紹的各種印刷漢字識別特征和方法不完全適用,目前也還沒有一套行之有效的識別方法。這是漢字識別最困難的問題,被認為是模式識別領域最后的一個堡壘。
近幾十年來各國學者做了很多研究工作,提出了一些思路和方法。但是目前還沒有哪一種方法能夠解決自由書寫的漢字識別問題,已發表的一些實驗系統的性能也都不夠好,難于付諸實用。因此,在這一章中我們只能擇要分析手寫漢字的特點,討論手寫漢字脫機識別的主要問題和困難,介紹解決問題的途徑、方法以及目前的研究水平;鑒于建立“標準”手寫漢字庫是開展手寫漢字識別研究的基礎,因而本章將介紹幾種國內外所建立的手寫漢字庫,供讀者參考。我們希望我國能有更多的科技工作者、特別是青年學者踴躍參加中文信息處理的研究,開拓進取,勇于創新,更好更快地攻克這個堡壘。
4.2 手寫漢字脫機識別的困難
手寫漢字脫機識別跟印刷漢字識別系統同屬光符閱讀器OCR的范疇。它們的識別對象都是二維的方塊漢字,工作原理相同,系統構成也基本相似,但手寫漢字脫機識別問題更多,困難更大。
手寫漢字脫機識別為什么那么困難呢?我們認為:最根本的原因是手寫漢字的字形變化太大!我國有一句俗語:“人心不同,各如其面”。這句話對手寫漢字的字形也完全適用。可以說,不同的人書寫的字是千差萬別,各不相同,即使是同一個人所寫的同一個字,往往也因時、因地而有明顯的變化。我們知道,脫機漢字識別的對象是方塊漢字的圖形,用于識別的特征是根據漢字圖形提取的,因而字形變化對識別結果具有決定性的影響。為了使讀者對手寫漢字字形的變化有更具體的了解,下面以幾種不同來源的手寫漢字字樣為例,具體加以說明。
圖4.1是幾種手寫漢字的字樣。其中圖4.1(a)是某種鋼筆字帖的字樣,這些字寫得十分工整,基本上是標準的手寫楷書,但它們跟印刷體漢字(包括印刷體的楷書)還有明顯的差異。圖4.1(b)是我國IAAS-4M手寫漢字庫的一些字樣,在這個字庫中,這些字樣的質量屬于優等。圖4.1(c)是常見的一些手寫漢字,顯然其字形跟印刷體漢字的差別更大,而且筆畫形狀和結構更缺少規律性。
從上述幾種字樣可以看出手寫漢字的一些特點:
①基本筆畫變化。印刷體漢字的筆畫基本上是橫平豎直,折筆(乛、乙、く)的拐角大都是尖銳的鈍角、銳角或直角,因而折筆基本上可以看做是由折線段所組成。我國手寫漢字的筆畫大都不具備上述的特點:橫不平、豎不直,直筆畫變彎,折筆的拐角變為圓弧,等等,例如,“品”字的三個“口”變成三個圓圈,“阝”變成“”;有時把較短的筆畫變為“點”,有時則在起筆或折筆的拐角處增加額外的“筆鋒”,如圖4.1(a)的“怕、桿、史”等。
②筆畫該連的不連,不該連的相連,這種情況十分普遍。它不是由于干擾等客觀原因而產生,主要是由于書寫者的習慣而造成的。應,筆畫的長短及部件的大小也發生變化。以圖4.l(a)的鋼筆字帖為例,“擔、打、報、擇”幾個字的偏旁“扌”,其豎筆</PGN0084.TXT/PGN>長短不一,“陽、隊、陳、陶”的部首“阝”也大小不同,它們在整字中的位置就有差異。方塊漢字字形是一種藝術,書寫時要求筆畫及部件的形態和相互關系,盡量彼此協調,使整字字形結構勻稱美觀,因此上述筆畫與部件的大小、位置變化,客觀上是不可避免的。此外,由于書寫者文化水平、習慣等的不同,他們所寫的字差別就更大。圖4.1(c)的樣本屬于比較工整的字樣,但是不難看出,字形變化仍相當明顯。這說明即使是同一個人寫的字也有一定的差異。筆畫長短、部首大小及位置等的變化,使我們難以仿照印刷體漢字識別的辦法事先確定它們的位置,按規定區域提取筆畫或部
首特征。
a)一種鋼筆字帖的字樣;(b)我國IAAS-4M手寫標準漢字庫字樣;(c)一般的手寫字字樣
圖4.1 幾種手寫漢字的字樣
?
上面討論的幾種手寫字樣大體上都是比較工整的楷書,它們字形尚有明顯的差別,更何況日常見到的各種手稿或書信中的字,其差別會更大。我國主要的手寫字體有楷書、行書和草書三種,如圖4.2所示。可以看出,同一個字的筆畫和字形幾乎迥然不同,相差甚遠。草書的字甚至文化較高的人有時也不認識,要求計算機能自動識別這樣的手寫字顯然是不可能,也是不合理的。
因此,對用于計算機自動識別的手寫漢字應有所要求。具體地說,對構成漢字的筆畫及其相互關系,應有必要的規定和限制,不能無約束地隨意書寫。這種字叫做“限制性手寫漢字”。顯然,這種限制不能太嚴,規定不能過于復雜,否則用戶難以適應,識別系統也不容易推廣應用。另一方面,對書寫的要求也不宜太寬,否則難以使系統具有足夠高識別率。這是一個不容易解決的矛盾。通常對書寫的基本要求有如下幾點:
①書寫工整,筆畫橫平豎直,粗細均勻;
②不同筆畫不連筆書寫,聯機識別時,應按常規筆順書寫。
③每個字符應寫在規定方格內(通常為6mm×6mm~12mm×12mm),字符大小盡量一致,筆畫不應超出方格。
上述要求并不復雜,但實際上很難完全做到,即使是文化水平較高的人,除非曾經受過書寫工程字的訓練,否則也不易按上述規定自始至終地書寫。這就是手寫字符識別的困難所在。
4.3 聯機手寫漢字識別系統的“課本”——手寫漢字樣本庫
現在來討論建立“標準的”手寫漢字樣本庫的問題。
建立標準的手寫漢字庫是開展手寫漢字識別的基礎。這是因為:其一,研究者必須擁有被研究的對象才能進行研究工作。這跟學生上學一樣,必須先有課本才能學習。計算機也必須先有漢字字樣才能進行訓練,學習識字。其二,這種字符庫最好是“標準的”、為多數研究者所采用的,這樣才能對各種識別方法的優劣進行比較,也有利于識別系統的推廣應用。
但是,如上所述,手寫漢字以及數字、字母等字符的圖形隨意性很大,很難有科學的方法對它們加以描述,也很難提出合理的、可操作的規范對它們加以刻畫;因此,至今還沒有滿意的、具有權威性的手寫漢字庫。在手寫字符識別研究初期,為了工作需要,有的研究單位,如加拿大的Concordia大學和日本的一些公司,不得不自己設法建立供研究用的手寫字符庫,同時也制訂了一些標準和要求,對書寫的格式和工具等施加一定的限制,力求使所建立的手寫字符庫能滿足實際應用的要求。近10多年來各國建立的手寫字符數據庫已逐漸增多,如美國國家標準局所屬OCR委員會制定的NIST手寫字符數據庫,日本電子技術研究所的ETL系列手寫體漢字庫等。20世紀80年代中期以后,在我國863計劃支持下,中國科學院自動化所建立了IAAS-4M手寫體漢字樣本庫,其后清華大學、北京郵電大學和華南理工大學等單位也建立了各自的手寫體漢字樣本庫。下面擇要介紹幾種手寫漢字庫的特點,供讀者參考。
1)ETL手寫字符庫
日本電子技術綜合研究所(ETL)于1984年建立了一個名為ETL-8的手寫字符庫,收集了日本教學用的881個漢字和75個假名,1984年后擴充至3000個漢字。
圖4.3是ETL-8的樣張片段。可以看出,這種手寫漢字相當工整,幾乎可以和印刷體漢字相比擬;基本筆畫大體上保持平直,因而通常把它叫做“手寫印刷體漢字”。這可能與日本人的書寫習慣有關,但也許是考慮到適應計算機自動識別的需要,因而對書寫提出較嚴格要求的緣故。順便指出:日本學者發表的有關手寫漢字識別研究的文章中,其識別率大多在95%以上,可能跟采用這種工整的手寫漢字庫有關。
2)IAAS-4M手寫漢字樣本庫
我國中科院自動化研究所于1980年開始從事建立手寫漢字樣本庫的工作,1988年建成了IAAS-4M漢字庫。該庫擁有3755個國標一級漢字、305個數碼、符號、字母和若干個常用的繁體字,總計共4060個字符。每種字符有1000個樣本,構成一個共有400萬個字符樣本的數據庫。圖4.1(b)已給出該庫漢字字樣的片段。用于書寫的紙張上印有8mm×8mm的方格,要求書寫者按自己的習慣書寫,但需把字寫在方格內,不得潦草;書寫筆的筆尖不應過粗,以免筆畫粘連使字形模糊。所收集的樣張經篩選后根據字形質量分為優、良、中、差四等。前三者各占30%,最后一類占10%,主要原因是書寫潦草,字跡不清。IAAS-4M手寫漢字樣本庫的漢字書寫者來自不同地區,包括不同年齡、性別、職業和不同文化水平的人員,對書寫的限制較少,只要求盡量按楷書規范書寫,因而樣本庫基本上反映了我國日常使用的手寫漢字的狀況,可以作為研究手寫漢字脫機識別的樣本。但是由于對書寫限制較少,字形差別很大,因而采用這種字庫進行訓練、測試的識別系統的識別率不高,一般首字識別率在80%左右,十字識別率也只達到90%。
4.4 脫機手寫漢字識別的主要問題及其解決辦法
脫機手寫漢字識別和印刷漢字識別的對象都是方塊漢字的點陣圖形,因而它們的工作原理是一樣的,識別系統的構成也大體上相同(參看圖3.2)。但手寫漢字的字形變化大,識別更為困難。
如何有效地解決手寫漢字的變形問題是脫機手寫漢字識別的核心問題之一。解決這個問題有兩種思路,一是在“預處理”的環節中采取“矯形”措施,使漢字字形變得較為工整。另一種途徑是精心選擇識別特征,使同一種漢字不同樣本的特征,其差別盡量小;而不同漢字的特征,其差別則盡量大,這跟對印刷漢字識別的要求是相同的。
在“預處理”環節中采用圖像處理技術來糾正圖形失真是一種常用的辦法。圖4.4是這種“矯形”方法的示例。這種方法對于“有規律性”的圖形失真非常有效。例如,照相時如果聚焦不好,或鏡頭晃動使相片模糊,采用適當的辦法可以很好地恢復原來的圖像,如圖4.4所示。
對于變形的手寫漢字采用適當的“非線性變換”方法也可以矯正字形的變化,使它變得較為工整。圖4.5是一種“矯形”方法的例子,其中圖4.5(a)是原來的手寫漢字字形。可以看出,這個字的重心不在中央,右邊的一“捺”也太長!矯正的辦法是把字形的左邊部分在水平方向加以放大,右邊部分則加以壓縮。經過這個處理之后,這個字的字形可以變得較為工整。上述處理方法,技術上叫做非線性變換。
應該指出的是,由于手寫漢字的字形變化沒有一定的規律,因而很難有一種能夠較好地、萬能地矯正各種字形變化的方法。采用某一種非線性方法可能對矯正某種字形變化有很好的效果,但卻不能有效地糾正其他類型的字形變化,有時甚至會適得其反。這是脫機手寫漢字識別一個難以解決的難題,對提高系統的正確識別率有極大影響。
?
目前解決手寫漢字字形變化對識別性能影響的主要途徑,仍是精心選用識別特征,使其既能代表各個漢字的基本特點,又能適應字形變化,以保證識別系統具有足夠高的識別率。20多年來各國學者在這方面做了很多工作,提出了很多方案:在結構識別法方面,有筆畫分析一綜合法(ABS法)、筆畫序列識別法、屬性關系圖法(ARG)與多邊形近似輪廓法等;在統計識別特征方面,有變換特征、筆畫密度特征(SDF)、筆畫方向特征(S-DCD)、背景特征、細胞特征以及方向線素特征,等等。這些特征各有特點,但都不能徹底解決脫機手寫漢字識別的問題。通常是采用一些綜合特征,取長補短,以獲得較好的效果。目前已達到的水平是:對于書寫工整的文稿,正確識別率在90%左右。我國原國家科委等五個單位為了推動智能人機接口的研究工作,組織了一個“全國漢字識別、語言識別與合成系統及自然語言處理系統”評測小組,定期對國內各單位的研究成果進行評測。第五屆評測工作于1998年在北京舉辦。在脫機手寫漢字識別方面有六個單位參加,測試字數共187750個。測試結果是:最佳的首字識別率為88.87%,前十字正確率為97.91%。大多數單位研制的系統,首字識別率都在85%以下,難以滿足實際應用的要求。
對各個系統的測試結果進行分析后我們發現:①筆畫多、字形復雜的字錯誤較少;相反,筆畫少、特別是字形相似的字錯誤較多。因此,應該有針對性地加強對這些容易錯識字的研究工作。②前十字正確率都很高,大都在98%左右,這對利用上下文關系進行后處理以提高識別率很有利。有關后處理的原理與方法在第5章中再作介紹。
脫機手寫漢字識別是漢字識別最為困難的問題,被認為是該領域內未被攻克的最后一個堡壘。
近二三十年來計算機技術雖然進展神速,但其工作原理卻沒有實質性的變化。模式識別是計算機技術的應用領域之一,情況也是如此,識別方法也沒有跳出原來的窠臼。以漢字識別為例,根據方塊漢字二維點陣圖形提取的特征來識別漢字,仍然是脫機識別系統唯一可行的辦法。因此漢字的字形變化超過一定限度時,所提取的特征也必有較大的變化,而計算機的智能又不高,缺乏“去偽存真、分清主次”的能力,無法有效地判斷、消除這種變化的影響,其結果必然使系統識別率下降。這是目前漢字識別系統、特別是手寫漢字識別系統的性能難以提高的根本原因。
因此本章較多地討論了脫機手寫漢字識別的困難和問題,雖然也從技術上討論了一些解決問題的思路,但還不能給出切實可行的解決問題的方法和答案,也不可能介紹可供應用的識別系統。不過我們不是悲觀論者,不會在困難面前退縮。人類社會的發展過程中經常會遇到某些一時難以解決的問題,隨著人們認識的提高和技術的進步,很多原來以為解決不一了的問題都陸續解決了。10多年前的漢字識別也曾被視為“攔路虎”,相信這個最后堡壘也是能夠攻破的。
5 實用印刷漢字識別系統
5.1 沿“實現產業化”的方向做不懈努力
漢字識別是計算機智能人機接口的主要研究課題之一,對解決計算機漢字錄入問題具有十分重要的意義。如何使漢字識別系統付諸實用是20年來我國有關科技工作者為之努力奮斗的目標,也是中國學者必須擔當的重任。經過多年的努力這個目標已基本達到了。
自1965年IBM公司Casey和Nagy兩位學者發表了第一篇關于印刷漢字識別研究的學術論文以來的30多年間,各國學者在漢字識別方面做了很多工作,取得了豐碩成果。日本在這方面投入的人力物力最多,寫出了很多學術論文,也有一些產品問世。但是日本使用的漢字字數較少,字體也不多,80年代研制的漢字識別系統字數在2000個以下,所采用的主機也大都是小型機或者專用的大型計算機,價格昂貴,我們難以采用。
我國開展漢字識別研究始于20世紀70年代末。雖然我們起步較晚,實驗條件也很差,但目標明確,今天看來,我們的技術路線比較合理,因而研究工作進展很快。1985年前我國只有少數單位從事探索、研究,發表了一些文章,研制了幾種模擬軟件或實驗系統。經過短短幾年的醞釀,我國在漢字識別方面的研究工作就形成高潮,不但參加單位和科技人員數量大幅度增加,在研究成果方面也有極大的進展。首先是總參通信部與中科院自動化所合作的聯機手寫漢字識別系統研制成功;其后不久,1986年清華大學原無線電系又制成了一個能識別6763個印刷漢字的系統,在國內外當時還沒有先例。這些成果的取得使我國在漢字識別這個前沿科技舞臺上取得了一席之地。在國家863高科技計劃支持下,我們的研究工作,按照“發展高科技、實現產業化”的方針,不斷朝著改進系統性能、促進成果實用化的方向發展。80年代末至90年代初的幾年間,又先后有11個單位的14項研究成果通過技術鑒定,其中有幾種系統脫穎而出,在市場上推廣應用,成為我國有關部門建立漢字數據庫重要技術裝備之一。曾經困擾我們的只用一個字典識別多字體印刷漢字的問題,以及當時國際上剛剛提出的漢英或漢日混排文本識別等問題也先后解決了。此外,在復雜版面自動分析和理解、版面自動分割,以及實現“原版重現”(俗稱“所得即所見”)等方面也都取得很好進展,滿足更多用戶更高的需求,大大開拓了漢字識別的應用范圍。這些成果的取得都是值得我們自豪的。
識別系統的核心技術是識別特征的選擇與提取。本書前面各章中我們圍繞這個問題詳細討論了選擇識別特征的原則和提取方法,在此基礎上介紹了幾種漢字識別系統的工作原理和實驗系統。但是在一個實用的識別系統中,除了特征提取與匹配判決之外,還有許多必不可少的環節,如輸入裝置、預處理、后處理以及輸出裝置等等。這些環節與整個系統的性能有著密切的關系,對提高整個系統性能至關重要。在實踐中我們認識到,對識別系統的所有環節都必須妥善處理,適當安排,否則我們所取得的研究成果只能停留在實驗室內,難以在實際中得到應用推廣。這可能是我們的許多科研成果不能及時轉化為產品的癥結所在。
因此,在這一章中我們將以一種實用的印刷漢字識別系統為例,較詳細地介紹識別系統的構成和系統各個環節的作用,特別是分析它們對系統性能的影響,并提出解決的辦法或方向,使讀者對漢字識別系統能有更具體深入的了解。
5.2 印刷漢字識別系統的構成
圖5.1是一種實用的印刷漢字識別系統較為完整的方框圖,圖5.2是它的部件配置照片。
整個系統的工作過程主要包括下列諸項:
①原始文本的掃描光電轉換輸入。一般采用圖像掃描儀將文本按頁面逐頁掃描輸入,再選擇合適的閾值二值化,得到二值的文本圖像。
②文本版面分析。將輸入后版面的原始文本圖像數據按頁面中的間隔分割成一些方塊,再將這些方塊按不同篇章的標題、摘要、作者、正文、圖像和表格等,對其屬性和相互連接關系加以理解和標注。
③字符的切割。將各文字塊中每一文字行逐一切割出來(稱為行切割),然后再將每個文字行的字符一個個地順序切割(稱為字切割)。
④歸一化處理。單個字符圖像在特征提取以前,一般要進行歸一化處理,包括位置歸一化和大小歸一化,以便對各種大小的字符都能正確識別。
⑤特征提取。對歸一化后的各個字符圖像進行特征提取,得到每個字符的特征描述。
⑥字符的單字識別。通常先根據每一個字符的特征進行預分類,得到待識字符較少的候選字符集合;然后再從候選字符集合中將待識字符識別出來。
⑦后處理。通常利用詞條或上下文關系對單字識別結果進行后處理糾錯。
⑧輸出識別結果。識別的結果可以顯示在計算機屏幕上,可以打印輸出,可以利用語音合成設備轉變為聲音讀出,也可以作為文件存入計算機文檔系統或直接寫入有關數據庫中,作為可供查詢的文本文件。
5.3 實用印刷漢字識別系統的總體技術指標
實用印刷漢字識別系統的總體技術指標主要有如下各項:
1)識別的字符類總數
系統識別的字符類總數決定整個系統的識別容量。
我國1980年公布的國家標準GB 2312-80《信息交換用漢字編碼字符集——基本集》(簡稱國標)中第一級常用漢字共有3755個,第二級有3008個,兩級共有6763個漢字。目前常用的漢字操作系統一般也只包含這兩級漢字。根據漢字綜合頻率表的統計結果,一級漢字使用頻度已大于99.7%,二級漢字除約500漢字較經常使用外,其余的二級漢字和二級以外的漢字主要用于人名和地名,約有一兩千字,這些字的使用頻度比較均勻。我國臺灣目前常用漢字為5401個漢字(繁體漢字)。
目前我國漢字識別系統所識別的漢字字符集,一般分為三級:第一級包括國標第一級漢字,即3755個漢字;第二級包括國標一、二級兩級漢字,共6763個,或包括用于我國臺灣的5401個漢字;第三級擴大至近萬個漢字,識別漢字字符集的確定應根據需要和可能綜合考慮。由于一級漢字的使用頻度已達99.7%,因此,受系統資源的限制,擴大字符集對識別率的提高可能好處不大,但對計算機內存的要求會大大加重,識別速度也會顯著下降。目前國內研制的系統主要以國標一級漢字為主,也可以適當增加一些較常用的二級漢字和專用漢字。
由于實際文本、雜志中,除漢字字符外,還包括標點符號、阿拉伯數字、英文字母等,尤其近來的報紙、科技書籍經常混有不少英文或其他外文字符,因此實用漢字識別系統的識別字符集內還應當包含這些字符集。具體字符集的規模和內容,可根據實際應用的需要仔細選用。
綜上所述,實用漢字識別系統的識別字符集應由漢字、標點、符號、數字、英(其他外文)文字母等部分組成,字符總數在4000~8000之間。
2)識別的字體
我國常用的印刷字體大致分為宋、仿宋、黑、楷四大字體,各種字體還有許多較小的子類,如宋體字就有報宋、書宋、大標(題)宋、小標(題)宋、扁宋、長宋等字體;仿宋字體有老仿宋、新仿宋;黑體還有扁黑、長黑、粗黑、細黑之分;楷體又分正楷、長楷和扁楷;等等,因此常用字體總計有16種以上。只有對所有這些常見的多種印刷字體都能識別,才能真正解決印刷文本的自動輸入問題。在設計多種字體印刷體漢字識別系統時,往往選用最常見的書宋、黑、仿宋和楷四種最主要字體,這些字體也是結構差別最大的四種字體。保證了這四大字體的高識別率,其他變化較小字體的識別問題也就基本上迎刃而解了。
通常把只能適應單一種字體的印刷漢字識別系統稱為單字體印刷漢字識別系統。這種系統采用切換特征字典的方法來識別不同字體的印刷漢字。能用同一特征字典識別</PGN0100.TXT/PGN>多種字體(如同時識別宋、仿宋、黑、楷四種主要字體)的識別系統稱為多字體印刷漢字識別系統。目前我國的印刷漢字自動輸入大都是多字體漢字識別系統。這是因為:第一,我國的印刷資料大都采用各種字體和各種字號的漢字混合編排的,識別不同字體時要求人或系統自動切換相應的特征庫是十分困難的、甚至是不可能的,出路只能是采用同一特征庫來識別它們。第二,實踐證明,采用單一特征庫的多字體漢字識別系統不僅對字體的變化有很高的適應能力,而且對于字號的變化,以及印刷質量、掃描輸入噪聲也具有很高的應變能力。因此,真正解決印刷漢字識別系統的實用化,就必須解決多字體印刷漢字的識別問題,實現具有高度魯棒性的,能適應實際印刷文本復雜變化的實用系統。
3)識別的字號
我國鉛字的字號約有16種,從特大號直到7號字的大小比例相差約9.3倍。不同大小的漢字經常同時出現在同一文本中。不同字號的漢字,其大小差別較大,識別時必須對大小進行歸一化。實踐表明,能識別多種字體的漢字識別系統,具有較強的適應漢字字形結構變化的能力,從而也具有適應字號變化的能力。因此只要對不同字號漢字進行一定比例的歸一化處理,原則上就可以解決所有字號漢字的識別問題。唯一還需要考慮的是,要有足夠清晰度的掃描輸入設備,保證提供足夠清晰度的漢字圖像點陣,以供識別之用。
4)識別率
這是系統最重要的指標。識別率分兩種,一種是指被正確切分的漢字圖像被正確識別的概率,稱單字識別率,另一種是識別結果相對原始文本而言的正確識別的概率,稱為系統識別率。從原始文本到識別結果輸出,中間要經過掃描輸入、行切割、字切割,然后才進行單字識別,中間各步都有可能影響識別率,尤其是字“切割”這一步往往容易發生切分錯誤,造成字符的誤識。因此,系統誤識概率主要包括切分錯誤和單字識別錯誤。實驗表明,由于文本印刷的復雜性,切分錯誤造成的誤識有時甚至會超過單字識別產生的錯誤。這告訴我們,除了努力提高單字識別率外,還要花大力氣提高文本字切割的質量,保證最終系統識別率的提高。
漢字識別系統的識別率是和印刷文字的質量密切相關的,而且好壞差別較大。也就是說,沒有統一的印刷文字質量標準是難以進行系統識別率比較的。
影響印刷文字質量的主要因素有:
①印刷文字產生方式的不同造成漢字的質量差異。我國常用的印刷方式有鉛印、膠印、激光打印、油印和計算機點陣式打印機打印等。不同方式的漢字不僅形狀有較大差異,而且印字質量相差也很懸殊。鉛印、激光打印的印刷文字質量較好,邊緣輪廓清晰、筆畫完整;膠印次之;最差的是油印和傳真機打印輸出的文字,筆畫邊緣模糊,筆畫往往有殘缺或粘連。這兩種文字目前很難用一般印刷漢字識別系統來識別。因此,在論及漢字識別系統的識別率時,一定要對被識別印刷文字的印刷方式加以明確限定,因為它是影響識別率的重要因素之一。
②印刷文本紙張質量的影響。紙張質量和紙張的密質程度(緊度)、白凈程度(白度)、光潔度和不透明度等有關。紙張的質量直接影響到印刷體文字的識別率。對漢字識別來說,對印刷紙張應有一定的要求,以保證漢字識別的質量。
為了對漢字識別系統的識別率進行比較,一般應選定一定印刷方式、一定紙張質量、同樣印刷文字質量的文字進行識別測試,或采用統一的文字數據文件進行識別測量,所得識別率才有進行比較的意義。另一方面,這也說明了,為了推廣漢字識別系統的應用,也應對上述兩方面內容制定相應的標準和規范,使漢字識別系統的設計和應用都有所依據。這項工作需要各方面的配合,也是十分重要的工作。
實用漢字識別系統在正常識別條件下的單字識別率應達到98%~99%以上,系統識別率也應在95%~96%以上,才有實際使用價值。
5)識別速度
漢字識別速度分單字識別速度和系統識別速度兩種。
單字識別速度可以是從漢字特征提取到識別結果輸出所需的單位時間內識別的字數,也可以是從行切割到識別結果輸出的單位時間內識別的字數,這兩種一般都稱為單字識別速度。另一種是以從文本掃描輸入開始,直到識別結果輸出所需的時間為標準,這樣計算出的單位時間內平均識別的字數,稱為系統識別速度。作為系統真正的效益是由系統識別速度最終體現出來的,它應作為系統真正追求的目標。
識別速度和正確識別率是一對矛盾。這是因為,要獲得高的正確識別率,一般必須采取較復雜的特征和匹配算法,</PGN0103.TXT/PGN>并花費較多的計算代價,因而會使識別速度有所下降。因此系統設計時必須綜合考慮兩者:一般是把高正確識別率的要求放在首位,在缺乏高識別率的前提下提高速度的意義是不大的。這是因為,由于錯識字符的糾錯要花費時間,也會將系統識別速度降下來。
目前單字體印刷漢字識別系統的單字識別速度在386微機上可達到10~20字/秒,多字體印刷漢字識別系統可達5~10字/秒,利用部分專用硬件,識別速度可達30~70字/秒以上。
6)系統配置的代價
作為實用系統,除了性能指標以外,還必須有經濟指標。要盡量降低系統價格,才能易于推廣使用。目前國內研制的漢字識別系統都是建立在微型計算機的基礎上,用軟件實現的。系統配置代價較低,性能受到一定的限制。隨著漢字OCR的不斷推廣,今后對其性能(特別是識別率和識別速度)將會更高的要求,如何妥善做好系統配置,使其具有較高的性能/價格比是一個應該研究的問題。
5.4 漢字識別系統的輸入裝置
脫機漢字識別系統(OCR)的輸入裝置用來將印刷、打印或書寫在紙張上的文字圖像,經傳感器轉換為電信號輸入計算機,以便計算機進行識別處理。
在脫機漢字識別系統中,輸入裝置是一個光電轉換設備,常用的有圖像掃描儀、電視攝像機和傳真機。目前一般采用圖像掃描儀,如圖5.3所示。它是采用線陣CCD光電傳感器,利用步進電動機實現機械垂直掃描運動,將同一版面的文字圖像掃描輸入的。為了將多頁文本不斷換頁掃描輸入,有的圖像掃描儀還配置有專門的換頁裝置,如HP公司的掃描儀中的自動供紙裝置ADF。掃描儀采用封閉的光學掃描環境,受周圍環境的影響小,圖像穩定,干擾小,掃描精度較高,有200,300,400和600點/英寸。有時可以利用軟件處理辦法把掃描精度的調節范圍擴大,如300點/英寸的掃描儀利用軟件可以在38~600點/英寸的范圍內以1點/英寸的增量調節掃描精度。
圖像掃描儀的掃描精度和所能獲取的漢字圖像點陣大小(或稱漢字圖像清晰度)直接有關。識別時從字切割后得到的漢字圖像點陣中提取漢字特征,對漢字進行識別。因此漢字圖像的點陣大小是影響漢字識別率的重要因素,也是漢字識別系統的重要參數。常用的漢字圖像點陣有48×48,64×64乃至96×96等幾種。點陣數大,漢字圖像清晰度高,包含的信息量大,這對漢字識別是有利的。但點陣太大也有明顯的缺點,就是數據量大,運算負擔加重,速度會受影響,以及對掃描儀的要求提高等。
對漢字圖像點陣大小的選擇決定了對輸入掃描設備清晰度的要求,表5.1列出在不同點陣時識別5號、6號、7號漢字所需要的掃描儀清晰度。顯然字的尺寸愈小,要求的掃描清晰度也愈高。目前商用掃描儀的清晰度為300~400點/英寸,一般可以滿足漢字識別的需要。
從以上分析可見,漢字圖像點陣數增加,要求輸入設備清晰度相應提高,同時所需的內存和處理時間也增加,這些都是我們所不希望的。但是,由于漢字筆畫數多、結構復雜,漢字點陣數減少會使筆畫粘連而發生錯識。為了得到高的識別率,有時寧愿將漢字點陣選得略微高一些。一般采用48×48的漢字點陣,基本上能滿足印刷漢字識別的需要。
圖像掃描儀(見圖5.3)通過專門設計的接口電路跟計算機接通,可把A4頁面的文本圖像輸入計算機。輸入圖像可以是二值圖像或灰度圖像,灰度圖像可以有16級的或64級灰度的,后者含有更多的信息,但需要比二值圖像高出4~6倍的存儲容量。用于漢字識別時,一般可根據輸入文本印刷質量的不同,選擇不同的灰度門限,將灰度圖像轉換為符合識別要求的二值圖像。
?
除了上述臺式圖像掃描儀之外,目前市場上出售的還有價格便宜的手持式圖像掃描儀(見圖5.4 ),其清晰度可手動分檔調節,最高可達400點/英寸,灰度門限也可連續手動調節,使用方便。缺點是掃描窗口一般僅4英寸,每次輸入的頁面面積小,且輸入文本質量由于手持運動抖動而受到影響,從而使識別率有所下降。但在一定范圍內(如輸入小塊文本時)還是可以采用的。
5.5 文本的版面分析和理解
報刊、雜志、書籍和表報等各種印刷文本的內容除了正文和插圖之外,還有大小標題、注釋、公式、表格以及作者姓名及地址等項目。這些內容在版面上的安排有一定的、但不是固定不變的順序和規則。例如:在期刊雜志中標題大多放在正文之前,并用較大的字號排印;其后是作者姓名、單位名稱與地址;在大塊正文之間往往穿插有小標題、公式和圖片;正文的編排可以是單欄、雙欄甚至是3~4欄。總的說來,書籍和一般刊物的版面編排比較簡單,花樣不多,報紙和某些大型刊物的版面編排較為復雜、多變,例如同一篇文章的正文分為若干小塊,交叉排印,有的甚至穿插一些“花邊”,其目</PGN0108.TXT/PGN>的或許是使整個版面更有“藝術”特色,不會過于呆板,更能吸引讀者的注意和興趣。我國20世紀30年代的上海報紙就有一種綴有“花邊”的小文章,被冠以“花邊”新聞的“雅號”。這種“花邊新聞”大都是一些短小精悍、針砭時弊,施加鞭貶的文章,當時曾經吸引眾多讀者的注意,還形成為一種很有特色的流派,叫做“花邊文學”,在社會上特別是文化界中影響極大。由此可見報刊雜志版面加以精心地藝術性地編排是有道理和必要的。
對于這樣豐富多彩的印刷版面,人們在閱讀時大都能一目了然,理解其中的含義及相互連接的關系,從而能夠正確閱看每一篇章及其相關的圖片與表格。然而,如果我們不賦予電腦必要的功能,它將無法處理這樣的復雜的排列組合,也難于對其中的文字進行識別。這種特殊功能就是對文本版面的分析與理解。
版面分析是把印刷文本同一版面中的圖像分割成一些圖像塊,每一圖像塊大小不等,但都含有相對獨立、完整的內容。如標題、正文段落、標注、圖、表和公式等等。
版面理解是在版面分析的基礎上進行的。其作用是判定各圖像塊的屬性及相互之間的邏輯關系。文本各圖像塊的屬性主要包括:標題、摘要、小標題、作者姓名及其單位、圖表、標注、表格等等;它們之間的邏輯關系則包括:是否是同一篇文章的圖像塊、同一篇章各圖像塊的連接關系(如大標題、作者、摘要、正文、小標題),以及同一篇章但不在同一欄目的圖像塊的連接關系等等。顯然,一個完整的識別系統必</PGN0109.TXT/PGN>須具有對每一版面的圖像進行正確分析、理解的能力,才能把經過識別的文字及相關插圖、表格等,按順序自動地連接成完整的篇章,供后續各種處理之用。
把印刷文本版面分割成圖像塊的方法原則上比較簡單。同一版面中的圖像塊往往是被空白的背景區分隔開的。尋找出背景區的位置,就可以把各圖像塊分割開來。這種方法和第1章所介紹的行分割和字分割相同,利用文本圖像的水平投影和垂直投影就能夠確定背景區的位置,實現各圖像塊的分割。圖5.5是版面分割示意。這個版面的編排比較復雜;正文分三欄排印,標題及圖片的寬度則都是兩欄,而且在垂直方向上互相重疊。顯然,如果將整個版面圖像分別進行水平和垂直投影,則難以求得能夠將它分割為若干圖像塊的空白間隔。對于這樣比較復雜的版面,一般可采用局部投影方法,先將能夠分離的圖像塊分割開,再處理其他部分的問題。
版面理解目前還沒有較好的通用的方法,看來也很難有“放之四海而皆準”的方法。其原因是版面的安排已不是一門科學,而是一種藝術。目前解決這個問題的方法之一是根據圖像塊的投影來確定該圖像塊的屬性。例如:正文的投影有周期性的行空白間隔,而插圖的投影則是連續的;又例如,標題的空白間隔寬于正文各行間隔,其投影高度也比正文大。此外在一般情況下,橫排文本的標題在正文之上,豎排文本的標題則大多在正文右側,等等。
5.6 漢字的行切割和字切割
漢字文本經光電掃描輸入計算機,再經過對文本的二值圖像進行版面分析。將文字圖像分割出來以后,為了識別單個漢字,還需要將每個漢字的圖像從整塊文字圖像中分割出來,才能送到識別裝置進行識別。</PGN0111.TXT/PGN>
我國現在的漢字文本有橫排版和豎排版兩種。橫排版的文字從左向右編排成行,然后再從上往下逐行排列。豎排版的文字則是從上往下按列編排,然后將各列文字再從右往左排列。對于橫排版面要先按水平方向進行行切割,然后再按垂直進行字切割。豎排版的行、字切割方法與此相似。下面以橫排版面為例說明行切割、字切割的方法和所遇到的問題。
1)行切割
行切割的方法是:對二值圖像從上到下逐行掃描,同時計算每掃描行的像素,以獲取圖像的水平投影。利用文字行間空白間隔造成的水平投影空隙,即可以將各行文字分割開來,如圖5.6所示。
在圖像輸入時,有時會出現紙張傾斜,造成文字行的傾斜。少量的傾斜對行切割以及后面的字切割和識別影響都不大。但傾斜嚴重時,相鄰兩行文字圖像的水平投影可能互相重疊,使它們之間的空白間隙被填滿而無法實現行切割(見圖5.7)。這種問題原則上可設計一套軟件,將文字圖像旋轉適當的角度來解決;但用軟件的辦法運算量很大,實際上難于采用。最直接的方法是盡量把紙張的位置放正,再進</PGN0112.TXT/PGN>行掃描和識別,因為一般目測紙張放正就滿足要求了。當行空白間距過小且每行的長度又很長時,紙張傾斜的影響較大,一般也采用人工矯正方法較為便捷。
2)字切割
字切割的作用是從行切割后得到的文字圖像行中將單個漢字的圖像分割出來。字切割的正確與否直接影響識別結果,是漢字識別系統中較重要也較困難的環節,特別是漢字與其他文字混排時,字切割就更為困難。
字切割的基本方法是,利用字與字之間的空白間隔在圖像行垂直投影上形成的空白間隙,將單個漢字的圖像切割出來的,如圖5.8所示。
但是漢字中有相當數量的由左、右兩部分構成的二根字和由左、中、右三部分組成的三根字。據對3755個宋體漢字的統計,其中二根字有約250個,如“八、北、非”等;三根字也不少,如“川、排、衍”等。這些字的圖像垂直投影在一個單字內部也會出現空白間隙,因而單純使用垂直投影空白間隙切分單字的切割算法會產生誤分。
字切割中遇到的更為困難的問題是目前報刊、雜志中的阿拉伯數字是按半角寬度(半個漢字寬度)排版的,即兩個阿拉伯數字占據了一個全角漢字的寬度,它們之間的間隔也往往小于兩個漢字之間的空白間隔,這和二根字的情況極為相似,如圖5.9(a)所示。這些情況在標點符號非常靠近時也會出現,如圖5.9(b)所示。
目前解決這些問題有如下幾種辦法。
①根據方塊漢字、拼音字母、阿拉伯數字和標點符號的圖形高度、寬度和間隔不同,綜合利用投影的空白間隙寬度、黑像素投影值,以及投影寬度和高度等信息來進行切割。在以漢字為主的版面中,這種方法較為簡單可行,個別切分錯</PGN0114.TXT/PGN>誤對總體識別率影響較小,可再進行人工校對加以糾正。
②把兩個半角的阿拉伯數字圖像當做一個新的字符來識別。也就是說,在字切割時,是把兩個阿拉伯數字的圖像當做是一個新的字符圖像切割下來,加以識別的。這樣在識別字符集內至少需要增加100個字符。
隨著我國科學技術的發展,在各種印刷資料中,漢字、數碼和拼音字母混排的情況日益增多,目前我國印刷文字排版又缺乏一定規則可供遵循,因而在識別系統中如何正確分割不同類型的字符,并采用相應的字典進行識別,這是一個必須重視的問題。這個問題的解決不但要充分依靠切分技術的改進,也需要出版界對印刷字符的排版方法制訂適當的規則。只有各方面相互配合才能得到更好的效果。
5.7 漢字圖像的歸一化
行切割和字切割后所得到的單個漢字圖像還必須進行歸一化處理,以消除因排版及字號、字體不同而帶來的漢字圖像在位置和大小上的變化。歸一化處理主要包括“位置歸一化”和“大小歸一化”兩種。漢字識別主要是以漢字的圖形為基礎的,如果不對漢字點陣圖像在位置和大小上進行歸一化處理,使待識字跟字典中的標準字按相同的準則一致起來,那么根據漢字點陣圖形抽取的識別特征就無法相互比較,進行判別。
位置歸一化和大小規一化的方法有好幾種,本文不能詳述。圖5.10(a)是待識別的一篇短文,包括標題、日期和正文三部分。其中標題是4號字、日期是6號字,正文是小5號字。它們的大小差別很大,經字、行切割后,各個單字圖像的位置也有所變化。因此在提取特征進行識別之前,必須先對它們的位置和大小做歸一化處理。圖5.10(b)是經歸一化處理后的圖像。
5.8 怎樣建立識別系統中的字典
在前面的章節中我們著重討論了識別特征的問題。在確定系統所采用的識別特征和提取方法之后,還有很多重要的問題要解決。例如:如何對系統進行訓練,建立所需要的字典?如何利用字典對輸入的待識字符進行匹配、判決,給出單字識別結果?對于單字識別器輸出中錯誤能否校正,如何校正等等。這些問題也都十分重要,是一個完整的漢字識別系統必不可少的環節。在下面各節就來討論這些問題。
為了討論上述這些問題,我們把單字識別模塊和后處理模塊的框圖再畫在圖5.11中。其中,單字識別模塊包括字典和匹配判決器兩種部件;后處理則包括詞條庫和詞匹配器兩部分。本節先討論怎樣建立識別系統中的字典。
我們知道,計算機必須先有一個“字典”才能“識字”。在計算機中建立字典(特征庫)的過程,叫做訓練過程或學習過程,用它來認字的過程叫做識別過程或匹配判決過程。這跟人們讀書識字的過程相似。小學生到學校讀書,要先在老師的教導下進行學習,然后自己才能讀書識字。
對計算機進行訓練、建立字典的方法,從原理上說是比較簡單的。假設識別系統應能識別的字數為N個。訓練時抽取每一個漢字的特征,把它們存儲起來,原則上就建成了一個特征庫,可以用來識字了。但是實際上同一個漢字的不同樣本(例如不同字體、不同字號等)彼此之間是有差異的,從不同樣本抽取的特征也有所不同,因此,只采用某一個漢字樣本的特征來建立特征庫是不妥當的。解決這個問題的辦法是每個漢字都采用若干個樣本的“平均”特征來代表這個漢字。換句話說,計算機必須先學習如何適應各種使用條件的變化,才能具有較高的“智能”,適應復雜多變的情況。
用于訓練的漢字樣本集合叫做訓練樣本集合。通常漢字OCR訓練樣本集合的字數應為系統容量的10倍或幾十倍。如果系統容量為3755個漢字,那么訓練樣本集合至少應有37550個字。訓練時,依次抽取集合中各個漢字樣本的特征,把它跟已存儲在特征庫中的特征相比較,同時適當調節有關參數使系統能正確識別這個字。然后,按照這一方法再輸入另一個樣本并進行識別。這樣反復迭代,直到系統能正確識別訓練樣本集合中的所有樣本為止。經過訓練后的特征庫用于識別訓練樣本集內的樣本時,識別率一般可達到100%,但用于識別訓練樣本集以外的其他漢字樣本集(叫做測試樣本集)時,識別率將有所降低。但性能好的識別系統在實際應用時,其識別率仍應不低于98%~99%。實踐證明,訓練樣本集合的樣本越多,效果越好。這和人們的學習規律是一致的。我們常說:“見得多,識得廣”就是這個道理。當然訓練樣本集合也不宜太大,否則所需的訓練時間太長,花費太大。
5.9 單字識別中的匹配判決
單字識別模塊中“匹配判決”的作用,是把待識漢字的特征和字典中的標準特征逐一比較,按照一定的準則把某一個標準特征所代表的漢字判定為識別后輸出的漢字。
漢字OCR中通常用兩個特征之間的“距離”作為準則來判定它們的相似度。當字典中某個標準特征和待識漢字特征之間的距離為最小時,該標準特征所代表的漢字就判決為待識的漢字。
下面舉一個例子來說明單字識別模塊是怎樣對輸入的待識漢字進行判決的。
圖5.12 (a)是待識漢字樣本——一篇文件的“標題”,共有38個漢字和一條“間隔符號”(長橫)。圖5.12(b)是識別模塊判決器給出的候選字及其“距離”,其中第一列的漢字(第一候選字)和該“標題”中對應的待識漢字距離最近;第二,三……各列的字則依次是距離較大的字,這些漢字右邊的數字是字典中該漢字的標準特征與待識漢字特征的“距離”。如果采用“距離最小”的判決準則,則該標題經識別后的輸出結果是
?
從上述單字識別結果可以看出,在被識別的38個字的“標題”中,34個字是正確識別,有4個字(貧、贅、L、蔡)識別錯誤。正確識別率為89.5%,而錯識率達10.5%,這樣的識別結果是不能令人滿意的。這里我們用這個例子只是為了說明單字識別模塊中的匹配判決器是怎樣工作而已,下面還將討論如何改變判決準則來減小錯誤率。
?
上面的例子中判決器采用“最小距離”的準則來判定識別結果。可以看出:這種判決器的輸出中,有的字和對應的待識漢字距離較近,這些字絕大多數是正確識別的字;但也有一些字雖然跟對應的待識字的距離最小,但絕對值卻很大,發生錯識的可能性也較大。為了使錯識字減少,在某些識別系統中引入“拒識字”這一概念。其方法是采用兩種判決準則:其一:若特征距離最小,且其絕對值小于一定數值的標準特征所對應的漢字,判決為正確識別的字。其二,若特征距離雖然是最小、但其絕對值大于規定值的標準特征對應的漢字,則判決為“拒識字”。根據這種判決準則,在上述例子中,如果規定距離大于48的特征所對應的漢字判為拒識字,那么匹配判決器的輸出將變成如下的結果:
其中符號@代表拒識字。在這38個字中,拒識字有3個;占7.9%;錯識字還有1個,占2.6%,正確識別的字34個,占89.5%。由此可見,引入了拒識字后,錯識字的比例顯著減少。下面我們還將看到,引入拒識字還有利于進行人工校正或自動糾錯,這對于提高系統識別率是有好處的。
?
順便指出,拒識字這一概念在很多識別系統中時常被采用。例如在自動信函分揀系統中,由于手寫的郵政編碼的識別率很低,如果編碼識別錯誤,把信函寄到錯誤的地址,損失很大。如果把可能發生錯識的編碼作為拒識處理,然后再用人工糾正,就可以大大減少錯誤投遞的損失。對某些用戶,例如銀行的支票識別,這個問題尤為重要。
5.10 后處理糾錯
在識別系統中,利用上下文關系、組詞規律或其他語法規則,對單字識別輸出的文件進行處理以糾正錯識字的方法,叫做后處理糾錯,簡稱為“后處理”。這種方法用于處理拼音文字的文件十分有效。目前各種英文文字處理系統幾乎都有“拼寫校對"(Spelling Check)軟件,它能夠自動地顯示每個詞語中少量的拼寫錯誤,并給出可能的改正方案。在各種辦公室自動化設備中,這是一種十分得力的方法,對發現、改正文稿中的錯誤,提高文件質量很有幫助。
在漢字識別系統中利用“詞條匹配”的方法也可以在一定程度上自動地糾正單字識別輸出中的個別錯誤。這里再以圖5.12(b)為例具體介紹這種后處理的方法。為了簡單起見,這里只討論雙字詞的匹配方法。
所謂雙字詞是指每個詞語由兩個漢字組成。漢語中雙字詞的數量最多,也最為常用。采用雙字詞匹配實現后處理糾錯時,識別系統中必須有一個“雙字詞庫”,用來檢查單字識別器輸出的文字序列中是否有某種雙字詞存在,在某些條件下可以糾正輸出文字序列中的錯識字。下面利用上節單字識別器的識別結果來說明用詞條匹配糾正拒識字的方法。
在上節的例子中,單字識別器輸出漢字序列的第三個字是拒識字。判決器同時也給出了“貧、貫、貫,覓、貪”五個候選字,它們和相應的待識字的距離都比較近,其中某個字可能就是正確的待識字。“詞條匹配法”就是根據拒識字的某個候選字能否和與它相鄰的字組成有意義的詞條來選擇候選字的。可以看出:這五個候選字跟與它相鄰的字可能有8種組合,如:“決貧、決貫、決覓、決貪”和“貧徹、貫徹、覓徹、貪徹”,但其中只有“貫徹”兩個字是有意義的雙字詞,由此可以認為:單字識別器輸出漢字序列的第三個字應該是“貫”字。
同理,第6和第12個拒識字應該分別是“整”字和“第”字,因為它們可以分別同跟在它們后面的字組成“整頓”和“第五”兩個有意義的詞條。
利用詞匹配的方法可以在一定程度上糾正單字識別器輸出的拒識字,但是這種辦法有一定的限制:如果單字識別器的性能不好,錯識字和拒識字太多,這種方法就不適用。通常要求單字識別器的識別率應該足夠高,而且拒識字不應該是連續出現的。還應該指出,詞條匹配法不能糾正單字識別器中屬于單字詞的錯識字,例如:在上述例子中“1989”的</PGN0123.TXT/PGN>“1”錯識為“L",這個錯字是無法用詞條匹配來糾正的。此外用于詞條匹配的“詞條庫”必須有足夠數量的詞條。據統計,漢字的雙字詞約有65891條,很難全部選用,否則系統的開銷太大,存儲器數量和搜索時間都將大大增加。但選用的詞條也不宜太少,一般以1萬~2萬條較為合適。
詞條匹配法屬于利用漢語上下文關系來校驗字符串是否合乎語法的方法之一。除雙字詞外,還可以利用三字詞、四字詞等,但詞條字數越多,搜索匹配越復雜,目前已有的漢字OCR很少采用。
后處理的方法很多,上面介紹的方法是在詞法分析的層次上進行的,這種方法比較簡單,但功能有限。更高層次的后處理是基于語義和語用關系上進行的,它利用上下文關系所蘊涵的更多的信息,其功能更強,但算法復雜,開銷也更大。這些后處理方法目前還處于探索研究階段,如何進一步提高整個識別系統的性能仍是一個必須繼續研究的課題。
???????????分享一下我老師大神的人工智能教程。零基礎!通俗易懂!風趣幽默!還帶黃段子!希望你也加入到我們人工智能的隊伍中來!https://blog.csdn.net/jiangjunshow
總結
以上是生活随笔為你收集整理的OCR 脱机手写汉字识别与印刷汉字识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浏览器对URL的长度限制
- 下一篇: 五笔字根表识别码图_五笔字根表