日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python实现ORC/文字识别之pytesseract

發布時間:2023/12/18 python 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python实现ORC/文字识别之pytesseract 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

比較方便使用的文字識別有兩種,在這里縣介紹第一種通過安裝pytesseract就可以使用的方法。
首先是搭建好python環境和安裝pycharm編碼運行工具,這里不做贅述。

下載和安裝pytesseract庫

網址: https://digi.bib.uni-mannheim.de/tesseract/
可以下載較新的版本,下載安裝到自己的目錄就行,我安裝的目錄是D://Tesseract,安裝比較新的版本還帶有語言選擇功能,安裝過程中可以選擇語言包(或者在下一步下載語言包配置)。
安裝完后就需要在電腦上配置環境:我的電腦(右鍵)>>高級系統配置>>環境變量>>系統環境變量>>PATH(把pytesseract安裝目錄加上)。

下載安裝語言包

pytesseract包含的沒有中文,如果安裝的時候沒有安裝中文,可以在這一步下載中文包安包然后配置。
網址: https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有兩個,一個是簡體chi_sim.traineddata,一個是繁體chi_tra.traineddata,一般是下載簡體的,如果你需要的話都下載。
下載完后,放到安裝目錄的tessdata文件下即可。

還需要兩個模塊

pip install pytesseract pip install pillow

最后一步

出現這個錯誤:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.

那便是沒有修改路徑的問題。有了pycharm編輯器,可以直接點擊pytesseract.py文件,找到源碼中的tesseract = 'tesseract‘
將其改為自己的安裝目錄下的tesseract.exe,我的如下:

到這里,環境配置就完成了。
下面可以跑一下代碼。

import pytesseract from PIL import Image# 讀取圖片 im = Image.open('1.png') # 識別文字,并指定語言 string = pytesseract.image_to_string(im, lang='chi_sim') print print(string)

大功告成!!!

這里是引用,感謝大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940

總結

以上是生活随笔為你收集整理的python实现ORC/文字识别之pytesseract的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。