日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

發(fā)布時(shí)間:2023/11/27 生活经验 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Windows安裝用于OCR的Tesseract及使用命令行參數(shù)進(jìn)行OCR

    • 1. 效果圖
    • 2. Tesseract 安裝及驗(yàn)證
    • 參考

這篇博客將介紹如何安裝和使用光學(xué)字符識(shí)別(OCR Optical Character Recognition)的Tesseract庫(kù),并使用命令行對(duì)圖像中的字符進(jìn)行識(shí)別;**除非圖像被清晰地分割,否則 Tesseract 會(huì)產(chǎn)生很差的結(jié)果。**在“嘈雜”輸入圖像的情況下,需要通過(guò)訓(xùn)練自定義機(jī)器學(xué)習(xí)模型來(lái)識(shí)別特定用例中的字符來(lái)獲得更高的準(zhǔn)確性。

OCR(Optical Character Recognition)光學(xué)字符識(shí)別是將鍵入、手寫或打印文本自動(dòng)轉(zhuǎn)換為機(jī)器編碼文本的過(guò)程,然后可以通過(guò)字符串變量訪問(wèn)和操作這些文本。

Tesseract最初由Hewlett-Packard在20世紀(jì)80年代開發(fā),在2005年開源。后來(lái)在2006年,谷歌采用了該項(xiàng)目,并從那時(shí)起一直是贊助商。

  • Tesseract軟件適用于多種自然語(yǔ)言,從英語(yǔ)到現(xiàn)在支持100多種書面語(yǔ)言,并有代碼,因此可以輕松地在其他語(yǔ)言上進(jìn)行訓(xùn)練。
  • Tesseract 最適合構(gòu)建文檔處理管道,其中掃描圖像、預(yù)處理,然后需要應(yīng)用光學(xué)字符識(shí)別。
  • Tesseract 最適合具有高分辨率輸入的情況,其中前景文本與背景清晰地分割開來(lái)。

1. 效果圖

OCR 命令行識(shí)別效果圖如下:

可以看到僅英文字符(紅色劃線和紫色圓圈標(biāo)識(shí)區(qū)),僅數(shù)字(藍(lán)色箭頭標(biāo)識(shí)區(qū))都被成功識(shí)別;

Tesseract局限性例子,如信用卡上的數(shù)字識(shí)別效果如下:
并沒有正確識(shí)別到;

2. Tesseract 安裝及驗(yàn)證

1. 安裝Tesseract

  • MacOS

brew install tesseract

  • ubuntu

sudo apt-get install tesseract-ocr

  • windows

官方安裝文檔見:https://github.com/UB-Mannheim/tesseract/wiki

tesseract-ocr-w32-setup-v5.0.0-alpha.20210811.exe (32 bit) 下載
tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe (64 bit) 下載

2. 驗(yàn)證是否已安裝Tesseract

tesseract -v
安裝成功可以看到屏幕上的Tesseract版本,以及Tesseract與兼容的圖像文件格式庫(kù)列表。


3. 測(cè)試Tesseract OCR

使用Tesseract時(shí),建議:

  • 使用盡可能高的分辨率和DPI作為輸入圖像。
  • 應(yīng)用閾值從背景分割文本。
  • 確保前景與背景盡可能清晰地分割(即,沒有像素化或角色變形)。
  • 對(duì)輸入圖像應(yīng)用文本傾斜校正,以確保文本正確對(duì)齊。

不預(yù)處理可能會(huì)導(dǎo)致不正確的OCR結(jié)果。

參考

  • https://www.pyimagesearch.com/2017/07/03/installing-tesseract-for-ocr/
  • https://github.com/tesseract-ocr

總結(jié)

以上是生活随笔為你收集整理的Windows安装用于OCR的Tesseract及使用命令行参数进行OCR的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。