當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

基于python抓取图片或PDF文字（中文和英文）

發(fā)布時(shí)間：2023/12/31 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了基于python抓取图片或PDF文字（中文和英文）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

抓取文字

1. 軟件安裝
- 1.1 Tesseract安裝
- 1.2 python 模塊
2. 測(cè)試
- 2.1 英文測(cè)試圖片：
- 2.2 中文測(cè)試圖片
- 2.3 批量識(shí)別

1. 軟件安裝

文字識(shí)別是ORC的一部分內(nèi)容，ORC的意思是光學(xué)字符識(shí)別，通俗講就是文字識(shí)別。Tesseract是一個(gè)用于文字識(shí)別的工具。基于python模塊可以完成這項(xiàng)復(fù)雜的任務(wù)。

1.1 Tesseract安裝

網(wǎng)址下載：https://digi.bib.uni-mannheim.de/tesseract/
注：w32表示32位系統(tǒng)；w64為64位系統(tǒng)
環(huán)境配置
一定要記住安裝位置，以便用于配置環(huán)境變量
配置環(huán)境變量（以win10為例）
方法：右擊我的電腦/此電腦->屬性->高級(jí)系統(tǒng)設(shè)置->環(huán)境變量->Path->編輯->新建

將安裝路徑復(fù)制黏貼 -> 依次確定

1.2 python 模塊

測(cè)試是在pyCharm中完成的。可以采用如下的安裝方式：

pip install pytesseract

注：需要將Tesseract安裝的路徑加入到 pytesseract.py 模塊中。
我這里使用的 Anaconda 數(shù)據(jù)庫，需要在D:\software\Anaconda\install\Lib\site-packages\pytesseract\pytesseract.py中修改

將：tesseract_cmd = 'tesseract' 改為：tesseract_cmd = r'$PATH\tesseract.exe' # 即安裝路徑

2. 測(cè)試

2.1 英文測(cè)試圖片：

import pytesseract from PIL import Imageim = Image.open("20200807105704.png")string = pytesseract.image_to_string(im)print(string) # 輸出結(jié)果如下： Do not go gentle into that good night! ?, ZackSock

2.2 中文測(cè)試圖片

import pytesseract from PIL import Imageim = Image.open("1596771968.jpg")string = pytesseract.image_to_string(im, lang='chi_sim')print(string) # 輸出結(jié)果 1. 軟件安裝文學(xué) 8 是 ORC 的一部分內(nèi) 容 ,ORC 的意悅是光學(xué) 字等識(shí) 別 , 通俗誠就星文字識(shí) 別、fesseract 一個(gè) 用于文字河的工具 , 基于 python 橫武可以完我頁復(fù) 札的代務(wù)

效果不是太好，可能和文字圖片（分辨率）有關(guān)系

2.3 批量識(shí)別

pytesseract 還可以將圖片放入一個(gè)文檔中，批量識(shí)別圖片。

準(zhǔn)備文檔，text.txt文檔內(nèi)容如下：

sentence1.jpg sentence2.jpg

批量識(shí)別

import pytesseract # 識(shí)別文字 string = pytesseract.image_to_string('text.txt', lang='chi_sim') print(string)

查找圖片并寫入文檔，轉(zhuǎn)化文字

import os import pytesseract # 文字圖片的路徑 path = 'text_img/' # 獲取圖片路徑列表 imgs = [path + i for i in os.listdir(path)] # 打開文件 f = open('text.txt', 'w+', encoding='utf-8') # 將各個(gè)圖片的路徑寫入text.txt文件當(dāng)中 for img in imgs:f.write(img + '\n') # 關(guān)閉文件 f.close() # 文字識(shí)別 string = pytesseract.image_to_string('text.txt', lang='chi_sim') print(string)

總結(jié)

以上是生活随笔為你收集整理的基于python抓取图片或PDF文字（中文和英文）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：北京大学软件工程研究所——简介
下一篇： Python爬虫处理抓取数据中文乱码问题