日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python ocr 识别中文pdf_轻松识别文字,这款Python OCR库支持超过80种语言

發布時間:2025/3/19 python 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python ocr 识别中文pdf_轻松识别文字,这款Python OCR库支持超过80种语言 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

OCR是什么?

有一款軟件叫掃描全能王,想必一些小伙伴聽過,這是一個OCR集成軟件,可以將圖像內容掃描成文字。

所以說,OCR作用是對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息。

OCR的全稱叫作“Optical Character Recognition”,即光學字符識別。

這算是生活里最常見、最有用的AI應用技術之一。

細心觀察便可發現,身邊到處都是OCR的身影,文檔掃描、車牌識別、證件識別、銀行卡識別、票據識別等等。

OCR本質是圖像識別,其包含兩大關鍵技術:文本檢測和文字識別。

先將圖像中的特征的提取并檢測目標區域,之后對目標區域的的字符進行分割和分類。

關于EasyOCR

Python中有一個不錯的OCR庫-EasyOCR,在GitHub已有9700star。它可以在python中調用,用來識別圖像中的文字,并輸出為文本。

?

https://github.com/JaidedAI/EasyOCR

?

EasyOCR支持超過80種語言的識別,包括英語、中文(簡繁)、阿拉伯文、日文等,并且該庫在不斷更新中,未來會支持更多的語言。

安裝EasyOCR

安裝過程比較簡單,使用pip或者conda安裝。

pip?install?easyocr

如果用的PyPl源,安裝起來可能會耽誤些時間,建議大家用清華源安裝,幾十秒就能安裝好。

使用方法

EasyOCR的用法非常簡單,分為三步:

1.創建識別對象;

2.讀取并識別圖像;

3.導出文本。

我們先來舉個簡單的例子。

找一張路標圖片,保存到電腦:

接著擼代碼:

#?導入easyocr

import?easyocr

#?創建reader對象

reader?=?easyocr.Reader(['ch_sim','en'])

#?讀取圖像

result?=?reader.readtext('test.jpg')

#?結果

result

輸出結果:

可以看到路標上的三個路名以及拼音都識別出來了!

識別的結果包含在元組里,元組由三部分組成:邊框坐標、文本、識別概率。

「關于語言:」

這段代碼有一段參數['ch_sim','en'],這是要識別的語言列表,因為路牌里有中文和英文,所以列表里添加了ch_sim(簡體中文)、en(英文)。

可以一次傳遞多種語言,但并非所有語言都可以一起使用。英語與每種語言兼容,共享公共字符的語言通常相互兼容。

前文我們給出了EasyOCR支持的語言列表,并附有參數代號。

「關于圖像文件:」

上面傳入了相對路徑'test.jpg',還可以傳遞OpenCV圖像對象(numpy數組)、圖像字節文件、圖像URL。

再讀取一張文字較多的新聞稿圖片:

#?導入easyocr

import?easyocr

#?創建reader對象

reader?=?easyocr.Reader(['ch_sim','en'])

#?讀取圖像

result?=?reader.readtext('test1.jpg')

#?結果

result

識別文字的準確率還是很高的,接下來對文字部分進行抽取。

for?i?in?result:

word?=?i[1]

print(word)

輸出:

小結

該開源庫是作者研究了幾篇論文,復現出來的成果,真是一位實干家。

檢測部分使用了CRAFT算法,識別模型為CRNN,它由3個主要組件組成:特征提取,序列標記(LSTM)和解碼(CTC)。整個深度學習過程基于Pytorch實現。

作者一直在完善EasyOCR,后續計劃一方面擴展支持更多的語言,爭取覆蓋全球80%~90%的人口;另一方面支持手寫識別,并提高處理速度。

總結

以上是生活随笔為你收集整理的python ocr 识别中文pdf_轻松识别文字,这款Python OCR库支持超过80种语言的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。