Adobe Acrobat/Python PDF 输出各不相同

Adobe Acrobat/Python PDF Outputs Varying

我注意到,当我使用 OCR 将扫描的 PDF 文档转换为文本时(在本例中为 Adob​​e Acrobat Pro),根据我提取数据的方式,我得到的输出非常不同。

在上面的照片中 - 您可以看到经过 OCR 转换为质量相当好的文本的 PDF 片段。如果我在 Adob​​e 中 select 复制它说,一个 word 或 txt 文档,它可以很好地粘贴。

但是,如果我使用 Adob​​e 将其导出为 Rich Text Format,使用 Python 的 PDFminer,或 Python Apache Tika,那么我会得到上面的照片,如您所见,它完全混乱了.两种方法之间的提取结果非常一致——基本上所有 3 种方法都以完全相同的方式混淆它。

你们中的任何人都知道为什么 OCR 的 PDF 可以很好地复制到文本编辑器,但以如此奇怪的方式提取吗?

谢谢!

此致, 马诺

所以最终对我有用的是 运行 使用 Apache-Tika 进行初始解析,然后,在少数没有起作用的地方,将它们传递给 PyPDF2。我的理论是 PyPDF2 使用一种不同的解析机制,它不像 Tika 那样依赖于 PDF 的根,而这似乎在一些 OCR 文档中被破坏了。

不确定最初的原因,但这是我的解决方案。