使用pypdf2从pdf中提取标题不起作用
Extracting title from pdf using pypdf2 not working
我正在尝试使用 pyPDF2
提取 PDF 文件的标题。输出是 none 或错误的标题。我也尝试使用 PDFminer
,结果仍然相同。我尝试使用 3 个不同的 pdf 文件。有没有更好的方法可以更准确地提取标题?
这是我使用的代码:
from PyPDF2 import PdfFileReader
def get_pdf_title(pdf_file_path):
pdf_reader = PdfFileReader(open(pdf_file_path, "rb"))
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('C:/PythonPrograms/Test.pdf')
print(title)
你的代码是有效的,至少对我来说 python 3.5.2。检查他确实有标题的 PDF 属性。
PDF 的标题是其元数据的一部分,需要进行设置。它不是强制性的,与其内容无关(除非是根据编写者的意愿),也与其文件名无关。
如果您在没有标题的文件上使用您的代码段,它的输出将是一个空字符串。
我正在尝试使用 pyPDF2
提取 PDF 文件的标题。输出是 none 或错误的标题。我也尝试使用 PDFminer
,结果仍然相同。我尝试使用 3 个不同的 pdf 文件。有没有更好的方法可以更准确地提取标题?
这是我使用的代码:
from PyPDF2 import PdfFileReader
def get_pdf_title(pdf_file_path):
pdf_reader = PdfFileReader(open(pdf_file_path, "rb"))
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('C:/PythonPrograms/Test.pdf')
print(title)
你的代码是有效的,至少对我来说 python 3.5.2。检查他确实有标题的 PDF 属性。 PDF 的标题是其元数据的一部分,需要进行设置。它不是强制性的,与其内容无关(除非是根据编写者的意愿),也与其文件名无关。
如果您在没有标题的文件上使用您的代码段,它的输出将是一个空字符串。