當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

Python：使用pypdf2合并、分割、加密pdf文件。

發(fā)布時(shí)間：2023/12/31 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python：使用pypdf2合并、分割、加密pdf文件。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

朋友需要對(duì)一個(gè)pdf文件進(jìn)行分割，在網(wǎng)上查了查發(fā)現(xiàn)這個(gè)pypdf2可以完成這些操作，所以就研究了下這個(gè)庫(kù)，并做一些記錄。首先pypdf2是python3版本的，在之前的2版本有一個(gè)對(duì)應(yīng)pypdf庫(kù)。

可以使用pip直接安裝：

pip install pypdf2 復(fù)制代碼

官方文檔：pythonhosted.org/PyPDF2/

里面主要有這幾個(gè)類(lèi)：

PdfFileReader 。

該類(lèi)主要提供了對(duì)pdf文件的讀操作，其構(gòu)造方法為：

PdfFileReader(stream, strict=True, warndest=None, overwriteWarnings=True) 復(fù)制代碼

第一個(gè)參數(shù)可以傳入一個(gè)文件流，或者一個(gè)文件路徑。后面三個(gè)參數(shù)都是用來(lái)設(shè)置警告的處理方式，直接使用默認(rèn)的即可。

得到實(shí)例之后，就可以對(duì)pdf進(jìn)行一些操作了。主要的有以下幾個(gè)操作：

decrypt(password)：如果pdf文件加密的話(huà)，可以使用該方法對(duì)其解密。
getDocumentInfo()：檢索pdf文件的一些信息。其返回值為一個(gè)DocumentInformation 類(lèi)型，直接輸出的話(huà)會(huì)得到類(lèi)似下面的信息：

{'/ModDate': "D:20150310202949-07'00'", '/Title': '', '/Creator': 'LaTeX with hyperref package', '/CreationDate': "D:20150310202949-07'00'", '/PTEX.Fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.15 (TeX Live 2014/MacPorts 2014_6) kpathsea version 6.2.0', '/Producer': 'pdfTeX-1.40.15', '/Keywords': '', '/Trapped': '/False', '/Author': '', '/Subject': ''}

getNumPages()：這個(gè)會(huì)pdf文件中的頁(yè)數(shù)。
getPage(pageNumber)：會(huì)得到pdf文件中對(duì)應(yīng)的pageNumber頁(yè)數(shù)的頁(yè)面對(duì)象，返回值為PageObject實(shí)例。在得到PageObject實(shí)例之后就可以將其加添、插入等操作。
getPageNumber(page)：與上面的方法對(duì)立，可以傳入PageObject實(shí)例，然后得到該實(shí)例是pdf文件中第幾頁(yè)的。
getOutlines(node=None, outlines=None)：檢索文檔中出現(xiàn)的文檔大綱。
isEncrypted：記錄該pdf是否加密。如果文件本身加密，即使在使用解密decrypt方法之后，還是會(huì)返回true。
numPages：pdf總共的頁(yè)數(shù)，相當(dāng)于訪問(wèn)getNumPages()的只讀屬性。

PdfFileWriter 。

該類(lèi)支持對(duì)pdf文件進(jìn)行寫(xiě)操作，通常是使用PdfFileReader讀取一些pdf數(shù)據(jù)，然后使用該類(lèi)進(jìn)行一些操作。

創(chuàng)建該類(lèi)的實(shí)例時(shí)不需要參數(shù)。

其主要的方法有：

addAttachment(fname, fdata)：向pdf添加文件。
addBlankPage(width=None, height=None)：給pdf添加一個(gè)空白頁(yè)到最后，如果沒(méi)有指定大小就使用當(dāng)前Weiter中pdf最后一頁(yè)的大小。
addPage(page)：添加page到pdf中，通常這個(gè)page是由上面的Reader獲取的。
appendPagesFromReader(reader, after_page_append=None)：將reader中的數(shù)據(jù)拷貝到當(dāng)前的Writer實(shí)例中，并且如果指定after_page_append的話(huà)，最后還有回掉該函數(shù)并且將writer中的數(shù)據(jù)傳入其中。
encrypt(user_pwd, owner_pwd=None, use_128bit=True)：將pdf進(jìn)行加密，其中官方說(shuō)userpwd是允許用戶(hù)使用一些限制的權(quán)限打開(kāi)pdf文件，也就是使用該密碼的話(huà)可能會(huì)有一些限制，但是本人并沒(méi)有在文檔中找到設(shè)置權(quán)限的內(nèi)容。而ownerpwd則是允許用戶(hù)無(wú)限制的使用。第三個(gè)參數(shù)是是否使用128位加密。
getNumPages()：得到pdf頁(yè)數(shù)。
getPage(pageNumber)：得到對(duì)應(yīng)頁(yè)數(shù)的Page，是一個(gè)PageObject對(duì)象，可以使用上面的addPage方法將page進(jìn)行添加。
insertPage(page, index=0)：將page添加到pdf中，index指定的是被插入的位置。
write(stream)：將該Writer中的內(nèi)容寫(xiě)入到文件中。

PdfFileMerger。

該類(lèi)用來(lái)合并pdf文件，該類(lèi)的構(gòu)造方法有一個(gè)參數(shù)：PdfFileMerger(strict=True)，注意這里的參數(shù)后面會(huì)介紹：

常用方法：

addBookmark(title, pagenum, parent=None)：給pdf添加一個(gè)書(shū)簽，title是書(shū)簽的標(biāo)題，pagenum是該書(shū)簽指向的頁(yè)面。
append(fileobj, bookmark=None, pages=None, import_bookmarks=True)：將指定的fileobj文件添加到文件的末尾，bookmark是贖前，pages可以使用(start, stop[, step])或者一個(gè) Page Range來(lái)設(shè)定將fileobj中的指定范圍的頁(yè)面進(jìn)行添加。
merge(position, fileobj, bookmark=None, pages=None, import_bookmarks=True)：與append方法類(lèi)似，不過(guò)可以使用position參數(shù)指定添加的位置。
write(fileobj)：將數(shù)據(jù)寫(xiě)入到文件中。

使用的時(shí)候可以創(chuàng)建一個(gè)PdfFileMerger實(shí)例，然后使用append或者merge將想要融合的pdf文件依次添加進(jìn)去，最后使用write保存即可。

def merge_pdf():# 創(chuàng)建一個(gè)用來(lái)合并文件的實(shí)例pdf_merger = PdfFileMerger()# 首先添加一個(gè)Week1_1.pdf文件pdf_merger.append('Week1_1.pdf')# 然后在第0頁(yè)后面添加ex1.pdf文件pdf_merger.merge(0, 'ex1.pdf')# 添加書(shū)簽pdf_merger.addBookmark('這是一個(gè)書(shū)簽', 1)# 將其寫(xiě)入到文件中pdf_merger.write('merge_pdf.pdf') 復(fù)制代碼

下面看一下PdfFileMerger(strict=True)中的這個(gè)參數(shù)：

官方對(duì)這個(gè)參數(shù)的解釋：

strict (bool) – Determines whether user should be warned of all problems and also causes some correctable problems to be fatal. Defaults to True.

確定是否應(yīng)該警告用戶(hù)所有問(wèn)題，并且還會(huì)導(dǎo)致一些可糾正的問(wèn)題。

剛開(kāi)始感覺(jué)這個(gè)參數(shù)就是用來(lái)是否警告用戶(hù)一些錯(cuò)誤的，直接使用默認(rèn)即可，但是當(dāng)本人嘗試合并帶中文的pdf時(shí)，出現(xiàn)了如下錯(cuò)誤：

Traceback (most recent call last):File "I:\python3.5\lib\site-packages\PyPDF2\generic.py", line 484, in readFromStreamreturn NameObject(name.decode('utf-8')) UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 10: invalid continuation byteDuring handling of the above exception, another exception occurred:PyPDF2.utils.PdfReadError: Illegal character in Name Object 復(fù)制代碼

在源碼包中使用utf解碼的時(shí)候出錯(cuò)了，嘗試修改此處源碼，讓其使用gbk，但是還出現(xiàn)了其他的錯(cuò)誤。最后發(fā)現(xiàn)當(dāng)把構(gòu)造函數(shù)中的strict設(shè)置為False時(shí)，控制臺(tái)會(huì)打印下面的錯(cuò)誤：

PdfReadWarning: Illegal character in Name Object [generic.py:489] 復(fù)制代碼

但是兩個(gè)文件成功的合并了，并且大概看了下合并后的文件有時(shí)好又是壞，同樣的代碼運(yùn)行多次，有時(shí)候能夠正常處理中文，但有時(shí)候中文亂碼。

除了列出的方法還有一些其他的方法，比如添加書(shū)簽、添加鏈接等等，可以參考官方文檔。

對(duì)pdf進(jìn)行合并、分割、加密。

整合出來(lái)了加密、解密、合并、根據(jù)頁(yè)數(shù)進(jìn)行分割、根據(jù)份數(shù)進(jìn)行分割的樣例：

使用注意：如果時(shí)中文文件，運(yùn)行結(jié)果可能會(huì)出現(xiàn)亂碼，但是多運(yùn)行幾次，中間有正常顯示中文的問(wèn)題。具體原因還不清楚，但就是這么玄學(xué)。。。

代碼傳送門(mén)

# @Time : 2018/3/26 23:48 # @Author : Leafage # @File : handlePDF.py # @Software: PyCharm # @Describe: 對(duì)pdf文件執(zhí)行合并、分割、加密操作。 from PyPDF2 import PdfFileReader, PdfFileMerger, PdfFileWriterdef get_reader(filename, password):try:old_file = open(filename, 'rb')except IOError as err:print('文件打開(kāi)失敗！' + str(err))return None# 創(chuàng)建讀實(shí)例pdf_reader = PdfFileReader(old_file, strict=False)# 解密操作if pdf_reader.isEncrypted:if password is None:print('%s文件被加密，需要密碼！' % filename)return Noneelse:if pdf_reader.decrypt(password) != 1:print('%s密碼不正確！' % filename)return Noneif old_file in locals():old_file.close()return pdf_readerdef encrypt_pdf(filename, new_password, old_password=None, encrypted_filename=None):"""對(duì)filename所對(duì)應(yīng)的文件進(jìn)行加密,并生成一個(gè)新的文件:param filename: 文件對(duì)應(yīng)的路徑:param new_password: 對(duì)文件加密使用的密碼:param old_password: 如果舊文件進(jìn)行了加密，需要密碼:param encrypted_filename: 加密之后的文件名，省卻時(shí)使用filename_encrypted;:return:"""# 創(chuàng)建一個(gè)Reader實(shí)例pdf_reader = get_reader(filename, old_password)if pdf_reader is None:return# 創(chuàng)建一個(gè)寫(xiě)操作的實(shí)例pdf_writer = PdfFileWriter()# 從之前Reader中將數(shù)據(jù)寫(xiě)入到Writer中pdf_writer.appendPagesFromReader(pdf_reader)# 重新使用新密碼加密pdf_writer.encrypt(new_password)if encrypted_filename is None:# 使用舊文件名 + encrypted 作為新的文件名encrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'encrypted' + '.pdf'pdf_writer.write(open(encrypted_filename, 'wb'))def decrypt_pdf(filename, password, decrypted_filename=None):"""將加密的文件及逆行解密，并生成一個(gè)無(wú)需密碼pdf文件:param filename: 原先加密的pdf文件:param password: 對(duì)應(yīng)的密碼:param decrypted_filename: 解密之后的文件名:return:"""# 生成一個(gè)Reader和Writerpdf_reader = get_reader(filename, password)if pdf_reader is None:returnif not pdf_reader.isEncrypted:print('文件沒(méi)有被加密，無(wú)需操作！')returnpdf_writer = PdfFileWriter()pdf_writer.appendPagesFromReader(pdf_reader)if decrypted_filename is None:decrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'decrypted' + '.pdf'# 寫(xiě)入新文件pdf_writer.write(open(decrypted_filename, 'wb'))def split_by_pages(filename, pages, password=None):"""將文件按照頁(yè)數(shù)進(jìn)行平均分割:param filename: 所要分割的文件名:param pages: 分割之后每個(gè)文件對(duì)應(yīng)的頁(yè)數(shù):param password: 如果文件加密，需要進(jìn)行解密操作:return:"""# 得到Readerpdf_reader = get_reader(filename, password)if pdf_reader is None:return# 得到總的頁(yè)數(shù)pages_nums = pdf_reader.numPagesif pages <= 1:print('每份文件必須大于1頁(yè)！')return# 得到切分之后每個(gè)pdf文件的頁(yè)數(shù)pdf_num = pages_nums // pages + 1 if pages_nums % pages else int(pages_nums / pages)print('pdf文件被分為%d份，每份有%d頁(yè)！' % (pdf_num, pages))# 依次生成pdf文件for cur_pdf_num in range(1, pdf_num + 1):# 創(chuàng)建一個(gè)新的寫(xiě)實(shí)例pdf_writer = PdfFileWriter()# 生成對(duì)應(yīng)的文件名稱(chēng)split_pdf_name = "".join(filename)[:-1] + '_' + str(cur_pdf_num) + '.pdf'# 計(jì)算出當(dāng)前開(kāi)始的位置start = pages * (cur_pdf_num - 1)# 計(jì)算出結(jié)束的位置，如果是最后一份就直接返回最后的頁(yè)數(shù)，否則用每份頁(yè)數(shù)*已經(jīng)分好的文件數(shù)end = pages * cur_pdf_num if cur_pdf_num != pdf_num else pages_nums# print(str(start) + ',' + str(end))# 依次讀取對(duì)應(yīng)的頁(yè)數(shù)for i in range(start, end):pdf_writer.addPage(pdf_reader.getPage(i))# 寫(xiě)入文件pdf_writer.write(open(split_pdf_name, 'wb'))def split_by_num(filename, nums, password=None):"""將pdf文件分為nums份:param filename: 文件名:param nums: 要分成的份數(shù):param password: 如果需要解密，輸入密碼:return:"""pdf_reader = get_reader(filename, password)if not pdf_reader:returnif nums < 2:print('份數(shù)不能小于2！')return# 得到pdf的總頁(yè)數(shù)pages = pdf_reader.numPagesif pages < nums:print('份數(shù)不應(yīng)該大于pdf總頁(yè)數(shù)！')return# 計(jì)算每份應(yīng)該有多少頁(yè)each_pdf = pages // numsprint('pdf共有%d頁(yè)，分為%d份，每份有%d頁(yè)！' % (pages, nums, each_pdf))for num in range(1, nums + 1):pdf_writer = PdfFileWriter()# 生成對(duì)應(yīng)的文件名稱(chēng)split_pdf_name = "".join(filename)[:-1] + '_' + str(num) + '.pdf'# 計(jì)算出當(dāng)前開(kāi)始的位置start = each_pdf * (num - 1)# 計(jì)算出結(jié)束的位置，如果是最后一份就直接返回最后的頁(yè)數(shù)，否則用每份頁(yè)數(shù)*已經(jīng)分好的文件數(shù)end = each_pdf * num if num != nums else pagesprint(str(start) + ',' + str(end))for i in range(start, end):pdf_writer.addPage(pdf_reader.getPage(i))pdf_writer.write(open(split_pdf_name, 'wb'))def merger_pdf(filenames, merged_name, passwords=None):"""傳進(jìn)來(lái)一個(gè)文件列表，將其依次融合起來(lái):param filenames: 文件列表:param passwords: 對(duì)應(yīng)的密碼列表:return:"""# 計(jì)算共有多少文件filenums = len(filenames)# 注意需要使用False 參數(shù)pdf_merger = PdfFileMerger(False)for i in range(filenums):# 得到密碼if passwords is None:password = Noneelse:password = passwords[i]pdf_reader = get_reader(filenames[i], password)if not pdf_reader:return# append默認(rèn)添加到最后pdf_merger.append(pdf_reader)pdf_merger.write(open(merged_name, 'wb'))def insert_pdf(pdf1, pdf2, insert_num, merged_name, password1=None, password2=None):"""將pdf2全部文件插入到pdf1中第insert_num頁(yè):param pdf1: pdf1文件名稱(chēng):param pdf2: pdf2文件名稱(chēng):param insert_num: 插入的頁(yè)數(shù):param merged_name: 融合后的文件名稱(chēng):param password1: pdf1對(duì)應(yīng)的密碼:param password2: pdf2對(duì)應(yīng)的密碼:return:"""pdf1_reader = get_reader(pdf1, password1)pdf2_reader = get_reader(pdf2, password2)# 如果有一個(gè)打不開(kāi)就返回if not pdf1_reader or not pdf2_reader:return# 得到pdf1的總頁(yè)數(shù)pdf1_pages = pdf1_reader.numPagesif insert_num < 0 or insert_num > pdf1_pages:print('插入位置異常，想要插入的頁(yè)數(shù)為：%d，pdf1文件共有：%d頁(yè)！' % (insert_num, pdf1_pages))return# 注意需要使用False參數(shù)，可能會(huì)出現(xiàn)中文亂碼的情況m_pdf = PdfFileMerger(False)m_pdf.append(pdf1)m_pdf.merge(insert_num, pdf2)m_pdf.write(open(merged_name, 'wb'))if __name__ == '__main__':# encrypt_pdf('ex1.pdf', 'leafage')# decrypt_pdf('ex1123_encrypted.pdf', 'leafage')# split_by_pages('ex1.pdf', 5)split_by_num('ex2.pdf', 3)# merger_pdf(['ex1.pdf', 'ex2.pdf'], 'merger.pdf')# insert_pdf('ex1.pdf', 'ex2.pdf', 10, 'pdf12.pdf')復(fù)制代碼

總結(jié)

以上是生活随笔為你收集整理的Python：使用pypdf2合并、分割、加密pdf文件。的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： iPhone11手机怎么样能拍出好看的照
下一篇： Python 嵌套列表解析

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

Python：使用pypdf2合并、分割、加密pdf文件。

PdfFileReader 。

PdfFileWriter 。

PdfFileMerger。

對(duì)pdf進(jìn)行合并、分割、加密。

總結(jié)

PdfFileReader 。

PdfFileWriter 。

PdfFileMerger。

對(duì)pdf進(jìn)行合并、分割、加密。