當(dāng)前位置：首頁 >

付费？是不可能的！20行Python代码实现一款永久免费PDF编辑工具

發(fā)布時間：2024/9/15 38 豆豆

生活随笔收集整理的這篇文章主要介紹了付费？是不可能的！20行Python代码实现一款永久免费PDF编辑工具小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

（掃碼關(guān)注）

PDF（Portable Document Format），中文名稱便攜文檔格式是我們經(jīng)常會接觸到的一種文件格式，文獻(xiàn)、文檔...很多都是PDF格式。它以格式穩(wěn)定的優(yōu)勢，使得我們在打印、分享、傳輸過程中能夠最優(yōu)的保持原有色彩和格式。

PDF是以PostScript語言圖像模型為基礎(chǔ)的一種文檔格式，它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢。但是，在可編輯性方面卻為使用者引入了另外一個困擾。

例如，在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF...經(jīng)常用到的PDF工具只能用于文檔閱讀，但是免費版都不可以用于文檔編輯。雖然，網(wǎng)頁版PDF工具，例如SmallPDF、I love PDF可以用于PDF的編輯，但是對于文檔大小也有限制。

曾經(jīng)，為了替換PDF中的一頁，我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具，最終還是不得不選擇使用付費工具來解決問題。

事后想了想，既然這些商業(yè)化軟件不靠譜，為什么不考慮自己動手開發(fā)一款工具呢？明明幾十行代碼能夠解決的問題，為什么要費那么多勁去下載、安裝那些沒有節(jié)操的軟件呢？

本文就來介紹一下利用Python輕松開發(fā)一款PDF編輯工具，可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。

PyPDF2

PyPDF2是一個第三方的python PDF庫，它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁面。

另外，它還可以對PDF文件添加自定義數(shù)據(jù)、水印、密碼，也可以從PDF文件中檢索出文本和元數(shù)據(jù)。

安裝

使用pip直接安裝：

$?pip?install?PyPDF2

下面就來演示幾項PDF編輯功能，并且會逐行解釋代碼的含義。

刪除PDF頁

先給出實現(xiàn)代碼，

from?PyPDF2?import?PdfFileWriter,?PdfFileReaderoutput?=?PdfFileWriter()?????//?1 input1?=?PdfFileReader(open("example.pdf",?"rb"))?//?2def?delete_pdf(index):pages?=?input1.getNumPages()?//?3for?i?in?range(pages):if?i+1?in?index:continueoutput.addPage(input1.getPage(i))??//?4outputStream?=?open("PyPDF2-output.pdf",?"wb")output.write(outputStream)??//?5delete_pdf([2,3,4])

下面來解釋一下代碼中的幾個關(guān)鍵點：

聲明一個用于輸出PDF的實例；

讀取本地PDF文件；

獲取PDF文檔的頁數(shù)；

讀取PDF的第i頁，添加到輸出output實例中；

把編輯后的文檔保存到本地；

合并PDF

已經(jīng)實現(xiàn)了刪除PDF頁，接下來就看一下如何把另外一個PDF中的頁面合并到當(dāng)前PDF中。

方法1：

可以沿著前面刪除PDF頁的方式進(jìn)行拓展一下，對PDF進(jìn)行合并。

from?PyPDF2?import?PdfFileWriter,?PdfFileReaderoutput?=?PdfFileWriter() input1?=?PdfFileReader(open("example.pdf",?"rb")) input2?=?PdfFileReader(open("simple2.pdf",?"rb"))?//?1def?merge_pdf(add_index,?origin_index):pages?=?input1.getNumPages()k?=?0for?i?in?range(pages):if?i+1?in?add_index:output.addPage(input2.getPage(origin_index[k]))?//?2pages?+=?1k?+=?1output.addPage(input1.getPage(i))outputStream?=?open("PyPDF2-output.pdf",?"wb")output.write(outputStream)merge_pdf([2,3,4],?[0,?0,?0])

讀取需要合并的源文件；

遍歷到指定頁，合并源PDF的頁面；

方法2：

除了方法1，還有另外一種方法可以合并PDF：

from?PyPDF2?import?PdfFileMerger?//?1merger?=?PdfFileMerger()input1?=?open("document1.pdf",?"rb")?//?2 input2?=?open("document2.pdf",?"rb") input3?=?open("document3.pdf",?"rb")merger.append(fileobj?=?input1,?pages?=?(0,3))?//?3merger.merge(position?=?2,?fileobj?=?input2,?pages?=?(0,1))?//?4merger.append(input3)?//?5output?=?open("document-output.pdf",?"wb") merger.write(output)

導(dǎo)入PyPDF2合并模塊PdfFileMerger;

讀取需要處理和合并的PDF文檔；

從第一個PDF文檔中取出需要合并的前3頁；

把第二個PDF文檔的第一頁插入到文檔中；

把第三個PDF文檔附到輸出文檔末尾；

除了上述介紹的2項主要功能，PyPDF2也有一些其他小功能：

旋轉(zhuǎn)

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉(zhuǎn)90度。

添加水印

page?=?input1.getPage(3) watermark?=?PdfFileReader(open("watermark.pdf",?"rb")) page.mergePage(watermark.getPage(0))

其中，水印存儲在另外一個PDF文檔watermark.pdf中。

加密

password?=?"secret" output.encrypt(password)

首先給一個secret密碼，然后使用encrypt對輸出文檔進(jìn)行加密。

pdfminer

前面介紹的PyPDF2主要擅長于PDF頁面級編輯，而對于文本和源數(shù)據(jù)級別編輯能力較弱。

所以，這里就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文檔的文本提取工具，它具有如下特性：

能夠準(zhǔn)確獲取文本的位置和布局信息；
可以將PDF轉(zhuǎn)換為HTML/XML等格式；
可以提取目錄；
可以提取標(biāo)簽內(nèi)容；
支持各種字體類型（Type1、TrueType、Type3和CID）;
支持中、日、韓語言和垂直書寫文本;

安裝

$?pip?install?pdfminer

PDF轉(zhuǎn)TxT

pdfminer在GitHub的托管項目中，在目錄tools下給出了一些實用的工具集，例如，PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。

$?pdf2txt.py?samples/simple1.pdf

總結(jié)

通過上述2款Python庫，就可以實現(xiàn)從頁面到文本元數(shù)據(jù)的編輯，本文只是簡單的介紹了每項的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表，可以閱讀官方文檔，或者閱讀GitHub上項目源碼進(jìn)行了解。此外，可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維，發(fā)掘更多有價值的應(yīng)用場景，例如，提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以，對軟件進(jìn)行封裝，開發(fā)成一款通用的PDF編輯工具。

? ???精彩文章?

你離黑客的距離，就差這20個神器了
真香！spaCy+Cython比Python快100倍.....
為什么程序員下班后只關(guān)顯示器從不關(guān)電腦？
30 個極簡Python代碼，拿走即用（真干貨）

最后說一個題外話，相信大家有不少人開通了視頻號。小詹也開通了一個視頻號，會分享互聯(lián)網(wǎng)那些事、讀書心得與副業(yè)經(jīng)驗，歡迎各位掃描下方二維碼關(guān)注。

總結(jié)

以上是生活随笔為你收集整理的付费？是不可能的！20行Python代码实现一款永久免费PDF编辑工具的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：干货 | 从零进阶数据分析学习资料汇总(
下一篇：肝！计算机网络基础知识总结