有什么方法可以直接从 pdf 段落而不是从元数据迭代获取 pdf 文件的标题？

Question

当我使用 python 代码将 pdf 文件作为输入传递时，我想在输出中获取标题。

我使用过 pdfreader、pypdf2、pdfminer 库，但它们都是从元数据中获取标题。

是否可以直接从 pdf 段落信息中获取标题？

Answer 1

感谢您的帮助。

我从 pdfminer 库中找到了解决方案。

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'/path/to/pdf'

Extract_Data=[]

for page_layout in extract_pages(path):
    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        Font_size=character.size
            Extract_Data.append([Font_size,(element.get_text())])

title = (max(Extract_Data))
print(title[1])

有什么方法可以直接从 pdf 段落而不是从元数据迭代获取 pdf 文件的标题？

is there any way to get title of the pdf file direct iterating from pdf paragraphs and not from metadata?

pdf

python-3.x