使用 Python 确定 PDF 是否由 Google Docs 生成
Use Python to determine if PDF was generated by Google Docs
我想使用 Python 判断 PDF 是否由 Google Docs 创建。我可以使用 PyPDF2 收集任何类型的元数据来确定这一点吗?
在 Google Docs 创建的文档上执行 pdf.getDocumentInfo()
时,它 returns {'/Producer': u'Skia/PDF m83'}
。我在几个 Google 文档上对此进行了测试,它似乎可以检查出来。这是有道理的——Skia 是 Google project,所以一定是他们用来在后端生成文档的东西。
所以你可以简单地做:
import PyPDF2
GOOGLE_DOCS_PDF_METADATA = {'/Producer': u'Skia/PDF m83'}
def file_is_google_doc(pdf_file_path)
pdf = PyPDF2.PdfFileReader(pdf_file_path)
return pdf.getDocumentInfo() == GOOGLE_DOCS_PDF_METADATA
我想使用 Python 判断 PDF 是否由 Google Docs 创建。我可以使用 PyPDF2 收集任何类型的元数据来确定这一点吗?
在 Google Docs 创建的文档上执行 pdf.getDocumentInfo()
时,它 returns {'/Producer': u'Skia/PDF m83'}
。我在几个 Google 文档上对此进行了测试,它似乎可以检查出来。这是有道理的——Skia 是 Google project,所以一定是他们用来在后端生成文档的东西。
所以你可以简单地做:
import PyPDF2
GOOGLE_DOCS_PDF_METADATA = {'/Producer': u'Skia/PDF m83'}
def file_is_google_doc(pdf_file_path)
pdf = PyPDF2.PdfFileReader(pdf_file_path)
return pdf.getDocumentInfo() == GOOGLE_DOCS_PDF_METADATA