使用pypdf2从pdf中提取标题不起作用

Extracting title from pdf using pypdf2 not working

我正在尝试使用 pyPDF2 提取 PDF 文件的标题。输出是 none 或错误的标题。我也尝试使用 PDFminer ,结果仍然相同。我尝试使用 3 个不同的 pdf 文件。有没有更好的方法可以更准确地提取标题? 这是我使用的代码:

from PyPDF2 import PdfFileReader

def get_pdf_title(pdf_file_path):

    pdf_reader = PdfFileReader(open(pdf_file_path, "rb")) 
    return pdf_reader.getDocumentInfo().title

title = get_pdf_title('C:/PythonPrograms/Test.pdf')

print(title)

你的代码是有效的,至少对我来说 python 3.5.2。检查他确实有标题的 PDF 属性。 PDF 的标题是其元数据的一部分,需要进行设置。它不是强制性的,与其内容无关(除非是根据编写者的意愿),也与其文件名无关。

如果您在没有标题的文件上使用您的代码段,它的输出将是一个空字符串。