當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

使用Python中的pytesseract模块实现抓取图片中文字

發(fā)布時間：2023/12/31 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了使用Python中的pytesseract模块实现抓取图片中文字小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、需求分析

二、方案選擇

三、實(shí)驗(yàn)實(shí)操

3.1、配置環(huán)境

3.2 、Anaconda配置

3.3、安裝tesseract程序

3.4、安裝pytesseract模塊

3.5、見證奇跡的環(huán)節(jié)

一、需求分析

最近同事用網(wǎng)上提供掃描軟件進(jìn)行掃描識別文字，每天上線只能夠做兩次掃描，請求我研發(fā)一個小工具幫助解決識別圖片的中文字。

二、方案選擇

使用pytesseract模塊可以解決這個需求問題，pytesseract是光識別圖片的模塊。需要安裝第三方資源庫進(jìn)行搜索。

三、實(shí)驗(yàn)實(shí)操

3.1、配置環(huán)境

Anaconda3.0，pycharm2022版，python3.7.0，win10

3.2、 Anaconda配置

先配置Anaconda3的環(huán)境，找到默認(rèn)安裝路徑C:\Users\Administrator\.condarc(看自己環(huán)境安裝哪里)

?將.condarc文件備份一個，然后加載源的配置項(xiàng)拷貝進(jìn)去，重啟Anaconda3程序，生效配置項(xiàng)。

加載源：

channels:- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ show_channel_urls: true ssl_verify: true

3.3、安裝tesseract程序

下載tesseract的exe安裝文件，安裝包地址：https://github.com/UB-Mannheim/tesseract/wiki

我下的是?tesseract-ocr-w64-setup-v5.0.1.20220118.exe版本。（本機(jī)是64位操作系統(tǒng)）

選配項(xiàng)中記得選擇中文的語言，后期識別中文字體做準(zhǔn)備。

?配置tesseract系統(tǒng)環(huán)境變量，將?tesseract-ocr的絕對路徑配置在系統(tǒng)變量中。

【從C:\Program Files\Tesseract-OCR安裝目錄下，直接把tessdata 文件夾里的內(nèi)容都復(fù)制到C:\Users\Administrator\Anaconda3，另外tessdata 文件夾里chi_sim.traineddata，eng.traineddata文件需要復(fù)制到C:\ProgramData\Anaconda3下，不然后面運(yùn)行程序會提示找不到文件，配置好環(huán)境變量也不行！】（據(jù)說是霸王條款）

重啟系統(tǒng)讓變量生效。

3.4、安裝pytesseract模塊

運(yùn)行Anaconda 終端命令，執(zhí)行conda install tesserocr pillow

?系統(tǒng)已經(jīng)顯示我已經(jīng)安裝。（安裝的時間有一些長，需要耐性等待。）

執(zhí)行另外一個指令conda install pytesseract? (安裝pytesseract,這個安裝需要一點(diǎn)時間等待了）

?使用python語句進(jìn)行驗(yàn)證。

3.5、見證奇跡的環(huán)節(jié)

測試1：

在pycharm編譯器中執(zhí)行語句操作：

from PIL import Image import pytesseractimage = Image.open("粉絲.jpg") #打開圖片 #print(image.size) #測試圖片像素尺寸 text = pytesseract.image_to_string(image, lang='chi_sim') #圖片轉(zhuǎn)字符串 text = text.replace("“ ","").replace("。","") #去掉雜質(zhì)，提純 print(text) #測試結(jié)果

原圖片粉絲.jpg：

?編譯結(jié)果：.(已經(jīng)成功識別圖片內(nèi)部的文字，進(jìn)行呈現(xiàn)。)

測試2：

原圖2

測試結(jié)果：可以正常識別圖片文字出來了。

?參考網(wǎng)友知識：

python提取圖片中的文字_帥帥de三叔的博客-CSDN博客_python提取圖片文字

anaconda+python+tesseract安裝，親試可用_icanfly728的博客-CSDN博客_anaconda安裝庫 pytesseract

總結(jié)

以上是生活随笔為你收集整理的使用Python中的pytesseract模块实现抓取图片中文字的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java爬虫实现数据抓取
下一篇：基于python抓取图片或PDF文字（中

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

使用Python中的pytesseract模块实现抓取图片中文字

一、需求分析

二、方案選擇

三、實(shí)驗(yàn)實(shí)操

3.1、配置環(huán)境

3.2、 Anaconda配置

3.3、安裝tesseract程序

3.4、安裝pytesseract模塊

3.5、見證奇跡的環(huán)節(jié)

總結(jié)

3.1、配置環(huán)境

3.2、 Anaconda配置

3.3、安裝tesseract程序

3.4、安裝pytesseract模塊