當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

用Python把PDF转为Word方法总结

發(fā)布時(shí)間：2024/3/24 python 38 豆豆

生活随笔收集整理的這篇文章主要介紹了用Python把PDF转为Word方法总结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

先講一下為啥要寫這個(gè)文章，網(wǎng)上其實(shí)很多這種PDF轉(zhuǎn)化的代碼和軟件。我一直想用Python做，但是網(wǎng)上搜到的代碼很多都不能用，很多是2.7版本的代碼，再就是PDF需要用到的庫在導(dǎo)入的時(shí)候，很多的報(bào)錯(cuò)，解決起來特別費(fèi)勁，而且自從2021年初以來，似乎網(wǎng)上很少有關(guān)PDF轉(zhuǎn)化的代碼出現(xiàn)了。我在研究了很多代碼和pdfminer的用法后，總結(jié)了幾個(gè)方法，目前這幾種方法可以解決大多數(shù)格式的轉(zhuǎn)化，后面我也專門放了提取PDF表格的代碼，文末有高效的免費(fèi)在線工具推薦。

--------------------------------------------------------------------------------------------------------------

下面這個(gè)是我最最推薦的方法，簡單高效，只要是標(biāo)準(zhǔn)PDF文檔，里面的圖片和表格都可以保留格式

# pip install pdf2docx #安裝依賴庫 from pdf2docx import Converterpdf_file = r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf' docx_file = r'C:\Users\Administrator\Desktop\Python教程\02.docx'# convert pdf to docx cv = Converter(pdf_file) cv.convert(docx_file, start=0, end=None) cv.close()

--------------------------------------------------------------------------------------------------------------

------------------------------------下面是另外三種常用方法---------------------------------------

1 把標(biāo)準(zhǔn)格式的PDF轉(zhuǎn)為Word，測試環(huán)境Python3.6.5和3.6.6（注意PDF內(nèi)容僅僅是文字為主的里面沒有圖片圖表的適用，不適合掃描版PDF，因?yàn)槟侵荒苡脠D片識別的方式進(jìn)行）

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO import sys import string from docx import Documentdef convert_pdf_2_text(path):rsrcmgr = PDFResourceManager()retstr = StringIO()device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())interpreter = PDFPageInterpreter(rsrcmgr, device)with open(path, 'rb') as fp:for page in PDFPage.get_pages(fp, set()):interpreter.process_page(page)#print(retstr.getvalue()) text = retstr.getvalue()device.close()retstr.close()return textdef pdf2txt():text=convert_pdf_2_text(path)with open('real.txt','a',encoding='utf-8') as f:for line in text.split('\n'):f.write(line+'\n')def remove_control_characters(content):mpa = dict.fromkeys(range(32))return content.translate(mpa)def save_text_to_word(content, file_path): doc = Document()for line in content.split(''):print(line)paragraph = doc.add_paragraph()paragraph.add_run(remove_control_characters(line))doc.save(file_path)if __name__ == '__main__':path = r'C:\Users\mayn\Desktop\程序臨時(shí)\培訓(xùn)教材.pdf' # 你自己的pdf文件路徑及文件名不適合掃描版只適合標(biāo)準(zhǔn)PDF文件text = convert_pdf_2_text(path)save_text_to_word(text, 'output.doc') #PDF轉(zhuǎn)為word方法#pdf2txt() #PDF轉(zhuǎn)為txt方法

2專門提取PDF里面的表格，使用pdfplumber適合標(biāo)準(zhǔn)格式的PDF

import pdfplumber import pandas as pd import time from time import ctime import psutil as ps #import threading import gc pdf = pdfplumber.open(r"C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf") N=len(pdf.pages) print('總共有',N,'頁')def pdf2exl(i): # 讀取了第i頁，第i頁是有表格的，print('********************************************************************************************************************************************************')print('正在輸出第',str(i+1),'頁表格')print('********************************************************************************************************************************************************') p0 = pdf.pages[i]try:table = p0.extract_table()print(table)df = pd.DataFrame(table[1:], columns=table[0])#print(df)df.to_excel(r"C:\Users\Administrator\Desktop\新建文件夾\Model"+str(i+1)+".xlsx")#df.info(memory_usage='deep')except Exception as e:print('第'+str(i+1)+'頁無表格，或者檢查是否存在表格') pass#print('目前內(nèi)存占用率是百分之',str(ps.virtual_memory().percent),' 第',str(i+1),'頁輸出完畢')print('**********************************************************************************************************************************************************')print('\n\n\n') time.sleep(5)def dojob1(): #此函數(shù) 直接循環(huán)提取PDF里面各個(gè)頁面的表格 print('*********************')for i in range(0,N):pdf2exl(i)

3也可以提取PDF里面的表格，使用camelot（camelot的安裝可能需要點(diǎn)耐心，反正用的人不多）

import camelot import wand# 從PDF文件中提取表格def output(i): #print(tables)#for i in range(5):tables = camelot.read_pdf(r'C:\Users\Administrator\Desktop\新建文件夾\mednine.pdf', pages=str(i), flavor='stream')print(tables[i])# 表格數(shù)據(jù)print(tables[i].data)tables[i].to_csv(r'C:\Users\Administrator\Desktop\新建文件夾\002'+str(i)+r'.csv')def plotpdf():# 這個(gè)是畫pdf 結(jié)構(gòu)的函數(shù) 現(xiàn)在不能用不要打開#print(tables[0])tables = camelot.read_pdf(r'C:\Users\mayn\Desktop\vcode工作區(qū)\11\路基.pdf', pages='200', flavor='stream')camelot.plot(tables[0], kind='text')print(tables[0])plt.show()# 繪制PDF文檔的坐標(biāo)，定位表格所在的位置 #plt = camelot.plot(tables[0],kind='text')#plt.show()#table_df = tables[0].df#plotpdf() #i=3 #output(i) for i in range(0,2):try: output(i)except Exception as e:print('第'+str(i)+'頁沒找到表格啊啊啊')pass continue

以下是pdfplumber測試效果

源文件如下

提取結(jié)果

最后補(bǔ)充2個(gè)免費(fèi)轉(zhuǎn)換的網(wǎng)站感覺還比較好用，關(guān)鍵是免費(fèi)
http://pdfdo.com/pdf-to-word.aspx
傳送門點(diǎn)這里

http://app.xunjiepdf.com/pdf2word/
傳送門點(diǎn)這里

總結(jié)

以上是生活随笔為你收集整理的用Python把PDF转为Word方法总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：三个机器配置SSH互信
下一篇：怎样用 Python 写一个股票自动交易

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

用Python把PDF转为Word方法总结

總結(jié)