Adobe Acrobat/Python PDF 输出各不相同

Adobe Acrobat/Python PDF Outputs Varying

我注意到，当我使用 OCR 将扫描的 PDF 文档转换为文本时（在本例中为 Adobe Acrobat Pro），根据我提取数据的方式，我得到的输出非常不同。

在上面的照片中 - 您可以看到经过 OCR 转换为质量相当好的文本的 PDF 片段。如果我在 Adobe 中 select 复制它说，一个 word 或 txt 文档，它可以很好地粘贴。

但是，如果我使用 Adobe 将其导出为 Rich Text Format，使用 Python 的 PDFminer，或 Python Apache Tika，那么我会得到上面的照片，如您所见，它完全混乱了.两种方法之间的提取结果非常一致——基本上所有 3 种方法都以完全相同的方式混淆它。

你们中的任何人都知道为什么 OCR 的 PDF 可以很好地复制到文本编辑器，但以如此奇怪的方式提取吗？

谢谢！

此致，马诺

所以最终对我有用的是运行使用 Apache-Tika 进行初始解析，然后，在少数没有起作用的地方，将它们传递给 PyPDF2。我的理论是 PyPDF2 使用一种不同的解析机制，它不像 Tika 那样依赖于 PDF 的根，而这似乎在一些 OCR 文档中被破坏了。

不确定最初的原因，但这是我的解决方案。