如何识别文本编码问题是我的处理错误还是来自源pdf

How to identify if text encoding issue is my processing error or carried from the source pdf

我有一些 pdf 文件要发送给我。我使用 tika 解析每个 pdf 中的文本并使用 utf-8 编码保存到 .txt（我正在使用 windows）

大多数 pdf 在我得到它们之前都是 OCR，但是当我查看提取的文本时，如果我查看 PDF，我有 "pnÁnn¿¡c" 而不是 "Phádraig"。

我可以验证 PDF 的文本层吗（如果那是错误的术语，请原谅我） 理想情况下不需要完整版的 Acrobat

听起来您正在使用 "hidden OCR" 处理扫描的书籍，即。 PDF 显示原始文档的图像，在图像后面有一层 OCRed 文本。这允许您使用搜索功能并从文档中复制粘贴文本。

当您突出显示文本时，隐藏的字符会变得可见（尽管此行为可能取决于您使用的查看器）。可以肯定的是，您可以将突出显示的文本复制粘贴到文本编辑器中。这将使您能够判断您是否真的在处理如此糟糕的 OCR 质量，或者您的提取过程是否导致了 mojibake。由于 OCR 质量在很大程度上取决于语言资源（词典、语言模型），如果输出对于像盖尔语（古爱尔兰语？）这样的低资源语言来说真的那么糟糕，我不会感到惊讶。

如何识别文本编码问题是我的处理错误还是来自源pdf

How to identify if text encoding issue is my processing error or carried from the source pdf

pdf

utf-8

character-encoding

python-3.x

apache-tika