有什么方法可以直接从 pdf 段落而不是从元数据迭代获取 pdf 文件的标题?

is there any way to get title of the pdf file direct iterating from pdf paragraphs and not from metadata?

当我使用 python 代码将 pdf 文件作为输入传递时,我想在输出中获取标题。

我使用过 pdfreader、pypdf2、pdfminer 库,但它们都是从元数据中获取标题。

是否可以直接从 pdf 段落信息中获取标题?

感谢您的帮助。

我从 pdfminer 库中找到了解决方案。

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'/path/to/pdf'

Extract_Data=[]

for page_layout in extract_pages(path):
    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        Font_size=character.size
            Extract_Data.append([Font_size,(element.get_text())])

title = (max(Extract_Data))
print(title[1])