只需要几行代码就可以轻松实现OCR图片转文字
OCR,即Optical Character Recognition,光學字符識別,是指通過掃描字符,然后通過其形狀將其翻譯成電子文本的過程。
下載安裝包
tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
進入下載頁面。
可以看到有各種.exe文件的下載列表,根據自己需求下載(其中文件名中帶有dev的為開發版本,不帶dev的為穩定版本,可以選擇下載不帶dev的版本,例如可以選擇下載tesseract-ocr-setup-4.0.0-alpha.20170804。)
安裝
下載后傻瓜式安裝即可。
這里選擇語言包,簡體中文(但勾選語言包較多時下載較慢,本人建議直接安裝,安裝后根據需要再去下載語言包。)
選擇合適的安裝路徑完成安裝。
環境變量配置
設置環境變量,進入環境變量中,找path,新建路徑。如圖:
測試
查看是否安裝成功,打開cmd,輸入tesseract -v回車,若顯示版本號即為安裝成功。如圖:
測試文件
我在網上隨便找了兩首古詩竟是文字識別測試,如下
python庫
所需第三方庫安裝方式
# pytesseract安裝: pip install pytesseract# PIL安裝: pip install pillow測試結果
短短七行代碼即可實現圖片轉文字,結果如下:
問題匯總
Tesseract在安裝過程中出現Download error Status of equ: Send Request Error. Click OK to continue!!!已解決
出錯的原因應該是,墻的問題,,請求失敗,嘗試管理員身份還是失敗,,,既然download失敗,那么就換種方式下載
Github上下載自己需要的語言包
https://tesseract-ocr.github.io/tessdoc/Data-Files ,
獲取到語言包后直接解壓,并且再次配置環境變量如下:
點擊我的電腦–>屬性–>高級設置—>環境變量---->path下面的—>新建—>變量名:TESSDATA_PREFIX---->變量值:前面的加上\tessdata
將下載好的語言包解壓,打開tessdata文件夾
然后將其復制到tessdata中。
最后,重啟一下電腦!!!!
然后win+R 快捷打開cmd,輸入tesseract --list-langs 就可,就可以看到所有的語言類型了。
推薦文章
-
李宏毅《機器學習》國語課程(2022)來了
-
有人把吳恩達老師的機器學習和深度學習做成了中文版
-
上癮了,最近又給公司擼了一個可視化大屏(附源碼)
-
如此優雅,4款 Python 自動數據分析神器真香啊
-
梳理半月有余,精心準備了17張知識思維導圖,這次要講清統計學
-
香的很,整理了20份可視化大屏模板
技術交流
歡迎轉載、收藏、有所收獲點贊支持一下!
目前開通了技術交流群,群友已超過2000人,添加時最好的備注方式為:來源+興趣方向,方便找到志同道合的朋友
- 方式①、發送如下圖片至微信,長按識別,后臺回復:加群;
- 方式②、添加微信號:dkl88191,備注:來自CSDN
- 方式③、微信搜索公眾號:Python學習與數據挖掘,后臺回復:加群
總結
以上是生活随笔為你收集整理的只需要几行代码就可以轻松实现OCR图片转文字的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 结对开发——返回一个整数数组中最大子数组
- 下一篇: 数据结构 图论02 十字链表详解 代码