只需要几行代码就可以轻松实现OCR图片转文字
OCR,即Optical Character Recognition,光學(xué)字符識(shí)別,是指通過(guò)掃描字符,然后通過(guò)其形狀將其翻譯成電子文本的過(guò)程。
下載安裝包
tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
進(jìn)入下載頁(yè)面。
可以看到有各種.exe文件的下載列表,根據(jù)自己需求下載(其中文件名中帶有dev的為開發(fā)版本,不帶dev的為穩(wěn)定版本,可以選擇下載不帶dev的版本,例如可以選擇下載tesseract-ocr-setup-4.0.0-alpha.20170804。)
安裝
下載后傻瓜式安裝即可。
這里選擇語(yǔ)言包,簡(jiǎn)體中文(但勾選語(yǔ)言包較多時(shí)下載較慢,本人建議直接安裝,安裝后根據(jù)需要再去下載語(yǔ)言包。)
選擇合適的安裝路徑完成安裝。
環(huán)境變量配置
設(shè)置環(huán)境變量,進(jìn)入環(huán)境變量中,找path,新建路徑。如圖:
測(cè)試
查看是否安裝成功,打開cmd,輸入tesseract -v回車,若顯示版本號(hào)即為安裝成功。如圖:
測(cè)試文件
我在網(wǎng)上隨便找了兩首古詩(shī)竟是文字識(shí)別測(cè)試,如下
python庫(kù)
所需第三方庫(kù)安裝方式
# pytesseract安裝: pip install pytesseract# PIL安裝: pip install pillow測(cè)試結(jié)果
短短七行代碼即可實(shí)現(xiàn)圖片轉(zhuǎn)文字,結(jié)果如下:
問(wèn)題匯總
Tesseract在安裝過(guò)程中出現(xiàn)Download error Status of equ: Send Request Error. Click OK to continue!!!已解決
出錯(cuò)的原因應(yīng)該是,墻的問(wèn)題,,請(qǐng)求失敗,嘗試管理員身份還是失敗,,,既然download失敗,那么就換種方式下載
Github上下載自己需要的語(yǔ)言包
https://tesseract-ocr.github.io/tessdoc/Data-Files ,
獲取到語(yǔ)言包后直接解壓,并且再次配置環(huán)境變量如下:
點(diǎn)擊我的電腦–>屬性–>高級(jí)設(shè)置—>環(huán)境變量---->path下面的—>新建—>變量名:TESSDATA_PREFIX---->變量值:前面的加上\tessdata
將下載好的語(yǔ)言包解壓,打開tessdata文件夾
然后將其復(fù)制到tessdata中。
最后,重啟一下電腦!!!!
然后win+R 快捷打開cmd,輸入tesseract --list-langs 就可,就可以看到所有的語(yǔ)言類型了。
推薦文章
-
李宏毅《機(jī)器學(xué)習(xí)》國(guó)語(yǔ)課程(2022)來(lái)了
-
有人把吳恩達(dá)老師的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)做成了中文版
-
上癮了,最近又給公司擼了一個(gè)可視化大屏(附源碼)
-
如此優(yōu)雅,4款 Python 自動(dòng)數(shù)據(jù)分析神器真香啊
-
梳理半月有余,精心準(zhǔn)備了17張知識(shí)思維導(dǎo)圖,這次要講清統(tǒng)計(jì)學(xué)
-
香的很,整理了20份可視化大屏模板
技術(shù)交流
歡迎轉(zhuǎn)載、收藏、有所收獲點(diǎn)贊支持一下!
目前開通了技術(shù)交流群,群友已超過(guò)2000人,添加時(shí)最好的備注方式為:來(lái)源+興趣方向,方便找到志同道合的朋友
- 方式①、發(fā)送如下圖片至微信,長(zhǎng)按識(shí)別,后臺(tái)回復(fù):加群;
- 方式②、添加微信號(hào):dkl88191,備注:來(lái)自CSDN
- 方式③、微信搜索公眾號(hào):Python學(xué)習(xí)與數(shù)據(jù)挖掘,后臺(tái)回復(fù):加群
總結(jié)
以上是生活随笔為你收集整理的只需要几行代码就可以轻松实现OCR图片转文字的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 结对开发——返回一个整数数组中最大子数组
- 下一篇: 数据结构 图论02 十字链表详解 代码