python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子
1、安裝 pdfminer3k
通過pip安裝: pip install pdfminer3k
下載安裝:在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載,解壓。然后cmd命令進入到當前文件夾:
可以直接在資源管理器的路徑欄直接輸入cmd進入到當前目錄。然后執行 python setup.py install 等待安裝完成
2.讀取pdf中的TXT代碼示例:
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
# 可以使用此方法獲取網絡上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")
#獲取文檔對象
#fp = open("****.pdf", "rb")
#創建一個一個與文檔關聯的解釋器
parser = PDFParser(fp)
#PDF文檔的對象
doc = PDFDocument()
#連接解釋器和文檔對象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文檔,當前文檔沒有密碼,設為空字符串
doc.initialize("")
#創建PDF資源管理器
resource = PDFResourceManager()
#參數分析器
laparam = LAParams()
#創建一個聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#創建PDF頁面解釋器
interpreter = PDFPageInterpreter(resource, device)
#使用文檔對象得到頁面的集合
for page in doc.get_pages():
# 使用頁面解釋器讀取
interpreter.process_page(page)
# 使用聚合器來獲得內容
layout = device.get_result()
for out in layout:
if hasattr(out, "get_text"):
print(out.get_text())
以上這篇python 使用pdfminer3k 讀取PDF文檔的例子就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
總結
以上是生活随笔為你收集整理的python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: unity 脚本中 调用另一个脚本_Un
- 下一篇: 如何采用python语言绘制一条_如何使