基于python抓取图片或PDF文字(中文和英文)
生活随笔
收集整理的這篇文章主要介紹了
基于python抓取图片或PDF文字(中文和英文)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
抓取文字
- 1. 軟件安裝
- 1.1 Tesseract安裝
- 1.2 python 模塊
- 2. 測(cè)試
- 2.1 英文測(cè)試圖片:
- 2.2 中文測(cè)試圖片
- 2.3 批量識(shí)別
1. 軟件安裝
文字識(shí)別是ORC的一部分內(nèi)容,ORC的意思是光學(xué)字符識(shí)別,通俗講就是文字識(shí)別。Tesseract是一個(gè)用于文字識(shí)別的工具。基于python模塊可以完成這項(xiàng)復(fù)雜的任務(wù)。
1.1 Tesseract安裝
- 網(wǎng)址下載:https://digi.bib.uni-mannheim.de/tesseract/
注:w32表示32位系統(tǒng);w64為64位系統(tǒng) - 環(huán)境配置
一定要記住安裝位置,以便用于配置環(huán)境變量
配置環(huán)境變量 (以win10為例)
方法:右擊我的電腦/此電腦->屬性->高級(jí)系統(tǒng)設(shè)置->環(huán)境變量->Path->編輯->新建
將安裝路徑復(fù)制黏貼 -> 依次確定
1.2 python 模塊
測(cè)試是在pyCharm中完成的。可以采用如下的安裝方式:
pip install pytesseract注:需要將Tesseract安裝的路徑加入到 pytesseract.py 模塊中。
我這里使用的 Anaconda 數(shù)據(jù)庫,需要在D:\software\Anaconda\install\Lib\site-packages\pytesseract\pytesseract.py中修改
2. 測(cè)試
2.1 英文測(cè)試圖片:
import pytesseract from PIL import Imageim = Image.open("20200807105704.png")string = pytesseract.image_to_string(im)print(string) # 輸出結(jié)果如下: Do not go gentle into that good night! ?, ZackSock2.2 中文測(cè)試圖片
import pytesseract from PIL import Imageim = Image.open("1596771968.jpg")string = pytesseract.image_to_string(im, lang='chi_sim')print(string) # 輸出結(jié)果 1. 軟 件 安 裝文 學(xué) 8 是 ORC 的 一 部 分 內(nèi) 容 ,ORC 的 意 悅 是 光 學(xué) 字 等 識(shí) 別 , 通 俗 誠 就 星 文 字 識(shí) 別 、fesseract 一 個(gè) 用 于 文 字 河 的 工 具 , 基 于 python 橫 武 可 以 完 我 頁 復(fù) 札 的 代 務(wù)效果不是太好,可能和文字圖片(分辨率)有關(guān)系
2.3 批量識(shí)別
pytesseract 還可以將圖片放入一個(gè)文檔中,批量識(shí)別圖片。
- 準(zhǔn)備文檔,text.txt文檔內(nèi)容如下:
- 批量識(shí)別
- 查找圖片并寫入文檔,轉(zhuǎn)化文字
總結(jié)
以上是生活随笔為你收集整理的基于python抓取图片或PDF文字(中文和英文)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北京大学软件工程研究所——简介
- 下一篇: Python爬虫处理抓取数据中文乱码问题