使用 Python 确定 PDF 是否由 Google Docs 生成

Use Python to determine if PDF was generated by Google Docs

我想使用 Python 判断 PDF 是否由 Google Docs 创建。我可以使用 PyPDF2 收集任何类型的元数据来确定这一点吗?

在 Google Docs 创建的文档上执行 pdf.getDocumentInfo() 时,它 returns {'/Producer': u'Skia/PDF m83'}。我在几个 Google 文档上对此进行了测试,它似乎可以检查出来。这是有道理的——Skia 是 Google project,所以一定是他们用来在后端生成文档的东西。

所以你可以简单地做:

import PyPDF2
GOOGLE_DOCS_PDF_METADATA = {'/Producer': u'Skia/PDF m83'}

def file_is_google_doc(pdf_file_path) 
    pdf = PyPDF2.PdfFileReader(pdf_file_path)
    return pdf.getDocumentInfo() == GOOGLE_DOCS_PDF_METADATA