當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

GUI实战｜Python做一个文档图片提取软件

發(fā)布時(shí)間：2024/9/15 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 GUI实战｜Python做一个文档图片提取软件小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大家好，本文將進(jìn)一步講解如何用Python提取PDF與Word中圖片，并結(jié)合之前講解過的GUI框架PysimpleGUI，做一個(gè)多文件圖片提取軟件，效果如下：

本文主要將分為以下部分講解：

PDF、Word、Excel文件圖片提取
構(gòu)造圖片提取器GUI框架
整合代碼并打包

主要涉及的Python模塊有：

PIL
PySimpleGUI
re
win32
os
zipfile
fitz

? 準(zhǔn)備工作

首先使用pip安裝相關(guān)依賴模塊

pip?install?pillow???#這是對(duì)模塊PTL的安裝 pip?install?pypiwin32????#這是對(duì)win32的安裝 pip?install?os? pip?install?zipfile pip?install?PyMuPDF??#這是引用fitz對(duì)PDF操作的包 pip?install?PySimpleGui

? 一、提取各文件內(nèi)嵌圖片

在之前的文章有講過，讀取Excel有兩種方法。一種是將后綴名改成.zip格式進(jìn)行提取，一種是通過Pillow模塊對(duì)Excel進(jìn)行圖片復(fù)制與保存。而在我們這次3種文件格式的圖片提取當(dāng)中，Excel提取圖片方法和之前一樣。

Word提取圖片方法和通過.zip提取方法類似，PDF提取圖片方法要用到新的模塊。由于Excel提取圖片的兩種方法在之前的文章講過，故這里只講解PDF和Word的提取方法。

1.1 提取Word圖片思路

和以前一樣，我們先看代碼再講解

path?=?values["lujing"]?? count?=?1 for?file?in?os.listdir(path):new_file?=?file.replace(".docx",".zip")os.rename(os.path.join(path,file),os.path.join(path,new_file))count+=1??????number?=?0craterDir?=?values["lujing"]?+?'/'??#?存放zip文件的文件夾路徑saveDir?=?values["lujing"]?+?'/'?#?存放圖片的路徑list_dir?=?os.listdir(craterDir)?#?獲取所有的zip文件名for?i?in?range(len(list_dir)):if?'zip'?not?in?list_dir[i]:list_dir[i]?=?''while?''?in?list_dir:list_dir.remove('')????????????????????????????for?zip_name?in?list_dir:#?默認(rèn)模式r,讀azip?=?zipfile.ZipFile(craterDir?+?zip_name)#?返回所有文件夾和文件namelist?=?(azip.namelist())for?idx?in?range(0,len(namelist)):if?namelist[idx][:11]?==?'word/media/':#圖片是在這個(gè)路徑下img_name?=?saveDir?+?str(number)+'.jpg'f?=?azip.open(namelist[idx])img?=?Image.open(f)img?=?img.convert("RGB")img.save(img_name,"JPEG")number?+=?1azip.close()??#關(guān)閉文件，必須有，釋放內(nèi)存

這里的代碼和GUI中通過.zip方式提取Excel圖片的代碼思路是一樣的。

“

path = values["lujing"]這里是讀取GUI中鍵為**“l(fā)ujing”**的值，也即文件存儲(chǔ)位置，用于os模塊讀取與操作。

new_file = file.replace(".docx",".zip")是替換后綴名，如果是Excel的話，就把.docx改成.xlsx或xls。

craterDir = values["lujing"] + '/' ?這是存放zip文件的文件夾路徑，注意這里讀取到的鍵為“l(fā)ujing”的值后要在后面添加/。

saveDir = values["lujing"] + '/' ?這是存放圖片的路徑，同理，和上面一樣加個(gè)/號(hào)。

”

最后說一下與Excel提取相比，最大的不同是下面的代碼

if namelist[idx][:11] == 'word/media/':細(xì)心的讀者可以發(fā)現(xiàn)，與Excel提取相比，中括號(hào)里面的值改了。

很好理解，我們可以打印namelist[idx]，可以發(fā)現(xiàn)在索引0到10是'word/media/'所在位置。而在Excel中是前9位。

感興趣的讀者可以翻看之前的文章，那里有對(duì)這段代碼的詳細(xì)解析，這里不多做介紹。

1.2 提取PDF圖片思路

和之前的excel提取圖片一樣，在一個(gè)pdf中放入4張圖片，我們將它壓縮為zip文件????

讀取后????

相關(guān)代碼如下：

def?pdf2pic(path,?pic_path):doc?=?fitz.open(path)nums?=?doc._getXrefLength()imgcount?=?0?for?i?in?range(1,?nums):text?=?doc._getXrefString(i)if?('Width?2550'?in?text)?and?('Height?3300'?in?text)?or?('thumbnail'?in?text):continuecheckXO?=?r"/Type(?=?*/XObject)"checkIM?=?r"/Subtype(?=?*/Image)"isXObject?=?re.search(checkXO,?text)isImage?=?re.search(checkIM,?text)if?not?isXObject?or?not?isImage:continueimgcount?+=?1pix?=?fitz.Pixmap(doc,?i)img_name?=?"img{}.png".format(imgcount)if?pix.n?<?5:try:pix.writePNG(os.path.join(pic_path,?img_name))pix?=?Noneexcept:pix0?=?fitz.Pixmap(fitz.csRGB,?pix)pix0.writePNG(os.path.join(pic_path,?img_name))pix0?=?None if?__name__?==?'__main__':path?=?values["lujing"]+?'/'?+?values["wenjian"]pic_path?=?values["lujing"]pdf2pic(path,?pic_path)

先說一下這段代碼的思路吧，由于PDF不能像Excel和Word一樣改后綴名進(jìn)行提取，故這里運(yùn)用python的一個(gè)模塊PyMuPDF，過程如下

讀取PDF并遍歷每一頁
篩選無用的元素并用正則表達(dá)式獲取圖片
生成并保存圖片

fitz.open(path)是打開PDF文件夾，這里的path是需要在GUI界面中獲取用戶的文件存放路徑于文件名的。

for?i?in?range(1,?nums):text?=?doc._getXrefString(i)

這是我們的第一步讀取并遍歷，將讀取到的字符串內(nèi)容放入到text中

if?('Width?2550'?in?text)?and?('Height?3300'?in?text)?or?('thumbnail'?in?text):continue

由于PDF每一頁的背景就是一張圖片，故我們可以通過寬高來尋找這些背景圖片并用continue把他們剔除。

checkXO?=?r"/Type(?=?*/XObject)" checkIM?=?r"/Subtype(?=?*/Image)" isXObject?=?re.search(checkXO,?text) isImage?=?re.search(checkIM,?text) if?not?isXObject?or?not?isImage:continue

我們通過實(shí)驗(yàn)發(fā)現(xiàn)圖片所對(duì)應(yīng)的字符串在checkxo與checkIM這兩個(gè)中。故用正則表達(dá)式在text中進(jìn)行索引提取，用到了re模塊的search函數(shù)。如果不是這兩個(gè)字符串就用continue剔除。

pix?=?fitz.Pixmap(doc,?i) img_name?=?"img{}.png".format(imgcount) if?pix.n?<?5:try:pix.writePNG(os.path.join(pic_path,?img_name))pix?=?Noneexcept:pix0?=?fitz.Pixmap(fitz.csRGB,?pix)pix0.writePNG(os.path.join(pic_path,?img_name))pix0?=?None

這是最后一步生成與保存圖片

“

pix = fitz.Pixmap(doc, i)是生成圖像語句，doc代表PDF文件，i代表遍歷每個(gè)圖片對(duì)象的索引值。

img_name = "img{}.png".format(imgcount)是設(shè)置圖像名語句，用提取到的圖片的序列號(hào)作為命名格式。

”

而后if嵌套try那幾行代碼是保存圖像語句。如果pix.n<5,可以直接存為PNG，否者將進(jìn)行RGB變換在保存。

由于代碼采用的是def函數(shù)編寫模式，故最后還要一個(gè)函數(shù)的初始化：if __name__ == '__main__':

至此，3種文件格式（Excel、Word、PDF）圖片提取方法已全部講解，接下來就是重中之重GUI構(gòu)建了。

? 二、GUI框架構(gòu)建

先看完整代碼：

import?PySimpleGUI?as?sg sg.ChangeLookAndFeel('GreenTan')???#更換主題 menu_def?=?[['&使用說明',?['&注意']]] layout?=?[[sg.Menu(menu_def,?tearoff=True)],[sg.Frame(layout=[[sg.Radio('Excel1',?"RADIO1",size=(10,1),key="Excel1"),??sg.Radio('Word',?"RADIO1",default=True,key="Word")],[sg.Radio('Excel2',?"RADIO1",?enable_events=True,?size=(10,1),key="Excel2"),?sg.Radio('PDF',?"RADIO1",key="PDF")]],?title='選項(xiàng)',title_color='red',?relief=sg.RELIEF_SUNKEN,?tooltip='Use?these?to?set?flags')],[sg.Text('文件位置',?size=(8,?1),?auto_size_text=False,?justification='right'),sg.InputText(enable_events=True,key="lujing"),?sg.FolderBrowse()],[sg.Text('文件名字',?size=(8,?1),?justification='right'),sg.InputText(enable_events=True,key="wenjian")],[sg.Submit(tooltip='文件'),?sg.Cancel()]]window?=?sg.Window('圖片提取器',?layout,?default_element_size=(40,?1),?grab_anywhere=False) while?True:event,?values?=?window.read()if?event?==?"Submit":if?values["Excel2"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?values["Excel1"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?values["Word"]?==?True:'''事件綁定'''sg.Popup("提取成功")?if?values["PDF"]?==?True:'''事件綁定'''sg.Popup("提取成功")if?event?==?"Cancel"?or?event?==?sg.WIN_CLOSED:break????if?event?==?"注意":sg.Popup("作用講解：","Excel1 ：解析選定位置中所有的Excel文件，無需在文件名處填寫","Excel2 ：解析選定位置中單個(gè)指定的Excel文件，需在文件名處填寫","Word ：??解析選定位置中單個(gè)指定的docx結(jié)尾的文件，無需在文件名處填寫","PDF ：???解析選定位置中單個(gè)指定的PDF文件，需在文件名處填寫") window.close()???????????

效果呈現(xiàn)：

代碼解析：做PySimpleGUI還是原來那個(gè)步驟：

Import ? Create some widgets Create the window Create the event loop

當(dāng)然，做GUI之前就是先想清楚自己的圖形交互頁面長什么樣，像我就是現(xiàn)在紙上畫一個(gè)大概，這樣更有益于制作頁面。

第一步先引用模塊

第二步添加元素（小部件）到容器（layout）中，這里先介紹一下用到的部件：

“

Menu：顧名思義，這是菜單欄，每個(gè)GUI都必帶一個(gè)菜單欄來提示使用者該如何做，我們這里用了menu_def這個(gè)布局來完成菜單的設(shè)置。

Frame：這個(gè)跟layout布局完全相同，工作方式也一樣，他們都是容器元素?？梢钥吹健斑x項(xiàng)”那里是一個(gè)凹槽的正方形，里面裝有四個(gè)選項(xiàng)，作用就是這個(gè)。注意，&這個(gè)符號(hào)的作用是創(chuàng)建相同類型的菜單，這里只有注意事項(xiàng)這一個(gè)菜單，故可以不用管，讀者如果想添加同樣的菜單的話必須添加一個(gè)&。tearoff=True這個(gè)參數(shù)是菜單欄中每個(gè)子選項(xiàng)上面加虛線。

Radio：單選按鈕。我們只可以在同樣的id上選擇一個(gè)選項(xiàng)。id就是指代碼中的“ra-dio1”。其中每個(gè)radio函數(shù)的第一個(gè)參數(shù)是文本內(nèi)容，這里就是我們要進(jìn)行提取的4個(gè)文件格式。而“size”就是位置，每行的第一個(gè)設(shè)同樣的參數(shù)（10，1）。最后就是我們進(jìn)行事件幫綁定的鍵，其中“enable_events”可以不寫因?yàn)槲覀冎皇钦{(diào)用它而不用去對(duì)它產(chǎn)生事件。

Text：之前有講是不能改的正文內(nèi)容。同樣這里設(shè)置的位置參數(shù)（8，1），justification='right'有點(diǎn)類似我們平常用word那個(gè)向右對(duì)其。

InputText：需要用戶輸入的正文內(nèi)容。這里有兩個(gè)需要我們填寫的地方：文件位置和文件名。這里需要設(shè)置鍵，因?yàn)樵诤竺媸录壎ㄖ形覀冃枰{(diào)用文件存儲(chǔ)路徑和文件名，在文中上半部分有提到過。

FolderBrowse：簡易的打開文件路徑操作，不用你去復(fù)制路徑。

Submit：確定按鈕，這里綁定為執(zhí)行提取文檔圖片事件

Cancel：退出主程序按鈕。

”

第三步就是創(chuàng)建窗口來容納這些元素布置。

第四步創(chuàng)建事件循環(huán)，可以看到代碼，都是一樣的套路：當(dāng)用戶按下submit按鈕時(shí)系統(tǒng)將進(jìn)行判斷你按的是哪個(gè)單選按鈕，進(jìn)而進(jìn)行相對(duì)應(yīng)的事件執(zhí)行。當(dāng)你按下cancel或者×?xí)r，就是退出主程序。當(dāng)你按菜單中的注意時(shí)，就會(huì)彈出一個(gè)對(duì)話框告訴你這個(gè)系統(tǒng)怎么用。

在事件循環(huán)中，我們用values[]的布爾值來判斷我們選的是哪個(gè)單選按鈕，有讀者疑問為什么不用event=，因?yàn)槲覀冊(cè)诘谝粋€(gè)if當(dāng)中用了event所以第二個(gè)if當(dāng)中需要換一個(gè)判斷方法。

至此，GUI部分就搞定了！感興趣的讀者可以繼續(xù)在上面添加功能。

? 三、打包

我們將完整代碼整合在一起，后安裝pyinstaller模塊

pip?install?pyinstaller

如果你的上述項(xiàng)目代碼文件命名為：photo.py。那么你要用下面命令進(jìn)行打包

pyinstaller?photo.py

最后打包成功之后，你會(huì)在py文件所在文件夾看到一個(gè)dist的子文件夾。進(jìn)去之后，找到pachong.exe文件并運(yùn)行它即可。

注意，文件夾里附帶了很多文件，你可以刪除它。當(dāng)然，如果嫌麻煩就直接從photo.py文件用Python執(zhí)行。

推薦閱讀誤執(zhí)行了rm -fr /*之后，除了跑路還能怎么辦？！程序員必備58個(gè)網(wǎng)站匯總大幅提高生產(chǎn)力：你需要了解的十大Jupyter Lab插件

總結(jié)

以上是生活随笔為你收集整理的GUI实战｜Python做一个文档图片提取软件的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：讲真！朋友圈别设置三天可见！
下一篇：手把手教你用Python进行SSH暴力破