使用Python中的pytesseract模块实现抓取图片中文字
目錄
一、需求分析
二、方案選擇
三、實(shí)驗(yàn)實(shí)操
3.1、配置環(huán)境
3.2 、Anaconda配置
3.3、安裝tesseract程序
3.4、安裝pytesseract模塊
3.5、見證奇跡的環(huán)節(jié)
一、需求分析
最近同事用網(wǎng)上提供掃描軟件進(jìn)行掃描識別文字,每天上線只能夠做兩次掃描,請求我研發(fā)一個小工具幫助解決識別圖片的中文字。
二、方案選擇
使用pytesseract模塊可以解決這個需求問題,pytesseract是光識別圖片的模塊。需要安裝第三方資源庫進(jìn)行搜索。
三、實(shí)驗(yàn)實(shí)操
3.1、配置環(huán)境
Anaconda3.0,pycharm2022版,python3.7.0,win10
3.2、 Anaconda配置
先配置Anaconda3的環(huán)境,找到默認(rèn)安裝路徑C:\Users\Administrator\.condarc(看自己環(huán)境安裝哪里)
?
?將.condarc文件備份一個,然后加載源的配置項(xiàng)拷貝進(jìn)去,重啟Anaconda3程序,生效配置項(xiàng)。
?
加載源:
channels:- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ show_channel_urls: true ssl_verify: true3.3、安裝tesseract程序
下載tesseract的exe安裝文件,安裝包地址:https://github.com/UB-Mannheim/tesseract/wiki
我下的是?tesseract-ocr-w64-setup-v5.0.1.20220118.exe版本。(本機(jī)是64位操作系統(tǒng))
選配項(xiàng)中記得選擇中文的語言,后期識別中文字體做準(zhǔn)備。
?配置tesseract系統(tǒng)環(huán)境變量,將?tesseract-ocr的絕對路徑配置在系統(tǒng)變量中。
【從C:\Program Files\Tesseract-OCR安裝目錄下,直接把tessdata 文件夾里的內(nèi)容都復(fù)制到C:\Users\Administrator\Anaconda3,另外tessdata 文件夾里chi_sim.traineddata,eng.traineddata文件需要復(fù)制到C:\ProgramData\Anaconda3下,不然后面運(yùn)行程序會提示找不到文件,配置好環(huán)境變量也不行!】(據(jù)說是霸王條款)
重啟系統(tǒng)讓變量生效。
3.4、安裝pytesseract模塊
運(yùn)行Anaconda 終端命令,執(zhí)行conda install tesserocr pillow
?系統(tǒng)已經(jīng)顯示我已經(jīng)安裝。(安裝的時間有一些長,需要耐性等待。)
執(zhí)行另外一個指令conda install pytesseract? (安裝pytesseract,這個安裝需要一點(diǎn)時間等待了)
?使用python語句進(jìn)行驗(yàn)證。
3.5、見證奇跡的環(huán)節(jié)
測試1:
在pycharm編譯器中執(zhí)行語句操作:
from PIL import Image import pytesseractimage = Image.open("粉絲.jpg") #打開圖片 #print(image.size) #測試圖片像素尺寸 text = pytesseract.image_to_string(image, lang='chi_sim') #圖片轉(zhuǎn)字符串 text = text.replace("“ ","").replace("。","") #去掉雜質(zhì),提純 print(text) #測試結(jié)果原圖片粉絲.jpg:
?編譯結(jié)果:.(已經(jīng)成功識別圖片內(nèi)部的文字,進(jìn)行呈現(xiàn)。)
測試2:
原圖2
?
測試結(jié)果:可以正常識別圖片文字出來了。
?參考網(wǎng)友知識:
python提取圖片中的文字_帥帥de三叔的博客-CSDN博客_python提取圖片文字
anaconda+python+tesseract安裝,親試可用_icanfly728的博客-CSDN博客_anaconda安裝庫 pytesseract
總結(jié)
以上是生活随笔為你收集整理的使用Python中的pytesseract模块实现抓取图片中文字的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java爬虫实现数据抓取
- 下一篇: 基于python抓取图片或PDF文字(中