如何识别文本编码问题是我的处理错误还是来自源pdf

How to identify if text encoding issue is my processing error or carried from the source pdf

我有一些 pdf 文件要发送给我。我使用 tika 解析每个 pdf 中的文本并使用 utf-8 编码保存到 .txt(我正在使用 windows)

大多数 pdf 在我得到它们之前都是 OCR,但是当我查看提取的文本时,如果我查看 PDF,我有 "pnÁnn¿¡c" 而不是 "Phádraig"

我可以验证 PDF 的文本层吗(如果那是错误的术语,请原谅我) 理想情况下不需要完整版的 Acrobat

听起来您正在使用 "hidden OCR" 处理扫描的书籍,即。 PDF 显示原始文档的图像,在图像后面有一层 OCRed 文本。 这允许您使用搜索功能并从文档中复制粘贴文本。

当您突出显示文本时,隐藏的字符会变得可见(尽管此行为可能取决于您使用的查看器)。 可以肯定的是,您可以将突出显示的文本复制粘贴到文本编辑器中。 这将使您能够判断您是否真的在处理如此糟糕的 OCR 质量,或者您的提取过程是否导致了 mojibake。 由于 OCR 质量在很大程度上取决于语言资源(词典、语言模型),如果输出对于像盖尔语(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我不会感到惊讶。