日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[转]浅谈OCR之Tesseract

發布時間:2025/7/14 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [转]浅谈OCR之Tesseract 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載請注明出處:http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html?

淺談OCR之Tesseract

?

光學字符識別(OCR,Optical Character Recognition)是指對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。OCR技術非常專業,一般多是印刷、打印行業的從業人員使用,可以快速的將紙質資料轉換為電子資料。關于中文OCR,目前國內水平較高的有清華文通、漢王、尚書,其產品各有千秋,價格不菲。國外OCR發展較早,像一些大公司,如IBM、微軟、HP等,即使沒有推出單獨的OCR產品,但是他們的研發團隊早已掌握核心技術,將OCR功能植入了自身的軟件系統。對于我們程序員來說,一般用不到那么高級的,主要在開發中能夠集成基本的OCR功能就可以了。這兩天我查找了很多免費OCR軟件、類庫,特地整理一下,今天首先來談談Tesseract,下一次將討論下Onenote 2010中的OCR API實現。可以在這里查看OCR技術的發展簡史。

測試代碼下載

轉載請注明出處:http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html?

?

1、Tesseract概述

Tesseract的OCR引擎最先由HP實驗室于1985年開始研發,至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封。

數年以后,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟件業,讓其重煥新生--2005年,Tesseract由美國內華達州信息技術研究所獲得,并求諸于Google對Tesseract進行改進、消除Bug、優化工作。

Tesseract目前已作為開源項目發布在Google Project,其項目主頁在這里查看,其最新版本3.0已經支持中文OCR,并提供了一個命令行工具。本次我們來測試一下Tesseract 3.0,由于命令行對最終用戶不太友好,我用WPF簡單封裝了一下,就可以方便的進行中文OCR了。

?

1.1、首先到Tesseract項目主頁下載命令行工具、源代碼、中文語言包:

?

1.2、命令行工具解壓縮后如下(不含1.jpg、1.txt):

?

1.3、為了進行中文OCR,將簡體中文語言包復制到【tessdata】目錄下:

?

1.4、在DOS下切換到Tesseract的命令行目錄,查看一下tesseract.exe的命令格式:

?

Imagename為待OCR的圖片,outputbase為OCR后的輸出文件,默認是文本文件(.txt),lang為使用的語言包,configfile為配置文件。

?

1.5、下面來測試一下,準備一張jpg格式的圖片,這里我是放到了和Tesseract同一個目錄中:

?

輸入:tesseract.exe 1.jpg 1 -l chi_sim,然后回車,幾秒鐘就OCR完成了:

這里注意命令的格式:imagename要加上擴展名.jpg,輸出文件和語言包不需要加擴展名。

?

OCR結果:

?

可以看到結果不是很理想,中文識別還說的過去,但是英文、數字大都亂碼。不過作為老牌的OCR引擎,能做到這種程度已經相當不錯了,期待Google的后續升級吧,支持一下。

?

2、使用WPF封裝Tesseract命令行

2.1、鑒于命令行書寫容易出錯,且對最終用戶很不友好,我做了一個簡單的WPF小程序,將Tesseract的命令行封裝了一下:

?

左邊選擇圖片、預覽,右邊選擇輸出目錄,顯示OCR結果,支持本地及網絡圖片的預覽。

?

2.2、為了使得圖片預覽支持縮放、移動,原本打算使用微軟的Zoom It API,可惜不支持WPF,于是使用了一個第三方的類:

圖片縮放、移動工具類

?

?

?

2.3、除了使用鼠標。還可以使用滾動條調節圖片預覽效果:

數據綁定

?

?

??

2.4、由于Tesseract命令行不支持直接OCR網絡圖片,故先下載:

圖片下載

?

?

??

2.5、使用Process來調用Tesseract命令行:

調用Tesseract命令行

?

?

??

2.6、測試本地圖片:

?

2.7、測試網絡圖片:

?

小結:

本次我們簡單討論了下Tesseract的用法,作為一款開源、免費的OCR引擎,能夠支持中文十分難得。雖然其識別效果不是很理想,但是對于要求不高的中小型項目來說,已經足夠用了。這里有一份免費OCR工具列表,感興趣的朋友可以研究一下。下一次將測試一下Onenote 2010中OCR功能,以及如何調用其API,為項目所用。

轉載于:https://www.cnblogs.com/Crysaty/p/6062716.html

總結

以上是生活随笔為你收集整理的[转]浅谈OCR之Tesseract的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。