日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

pdf python 位置_如何使用PDFMiner获取PDF中文本的位置?

發(fā)布時間:2024/9/19 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pdf python 位置_如何使用PDFMiner获取PDF中文本的位置? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

您正在每個布局對象上查找bbox屬性。PDFMiner文檔中有一些關于how to parse the layout hierarchy的信息,但它并沒有涵蓋所有內容。

下面是一個例子:from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure

def parse_layout(layout):

"""Function to recursively parse the layout tree."""

for lt_obj in layout:

print(lt_obj.__class__.__name__)

print(lt_obj.bbox)

if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):

print(lt_obj.get_text())

elif isinstance(lt_obj, LTFigure):

parse_layout(lt_obj) # Recursive

fp = open('example.pdf', 'rb')

parser = PDFParser(fp)

doc = PDFDocument(parser)

rsrcmgr = PDFResourceManager()

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.create_pages(doc):

interpreter.process_page(page)

layout = device.get_result()

parse_layout(layout)

如果您對單個LTChar對象的位置感興趣,您可以遞歸地解析成LTTextBox和LTTextLine的子布局對象,就像在上面的示例中對LTFigure所做的那樣。

總結

以上是生活随笔為你收集整理的pdf python 位置_如何使用PDFMiner获取PDF中文本的位置?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。