如何识别文本编码问题是我的处理错误还是来自源pdf
How to identify if text encoding issue is my processing error or carried from the source pdf
我有一些 pdf 文件要发送给我。我使用 tika 解析每个 pdf 中的文本并使用 utf-8 编码保存到 .txt(我正在使用 windows)
大多数 pdf 在我得到它们之前都是 OCR,但是当我查看提取的文本时,如果我查看 PDF,我有 "pnÁnn¿¡c"
而不是 "Phádraig"
。
我可以验证 PDF 的文本层吗(如果那是错误的术语,请原谅我) 理想情况下不需要完整版的 Acrobat
听起来您正在使用 "hidden OCR" 处理扫描的书籍,即。 PDF 显示原始文档的图像,在图像后面有一层 OCRed 文本。
这允许您使用搜索功能并从文档中复制粘贴文本。
当您突出显示文本时,隐藏的字符会变得可见(尽管此行为可能取决于您使用的查看器)。
可以肯定的是,您可以将突出显示的文本复制粘贴到文本编辑器中。
这将使您能够判断您是否真的在处理如此糟糕的 OCR 质量,或者您的提取过程是否导致了 mojibake。
由于 OCR 质量在很大程度上取决于语言资源(词典、语言模型),如果输出对于像盖尔语(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我不会感到惊讶。
我有一些 pdf 文件要发送给我。我使用 tika 解析每个 pdf 中的文本并使用 utf-8 编码保存到 .txt(我正在使用 windows)
大多数 pdf 在我得到它们之前都是 OCR,但是当我查看提取的文本时,如果我查看 PDF,我有 "pnÁnn¿¡c"
而不是 "Phádraig"
。
我可以验证 PDF 的文本层吗(如果那是错误的术语,请原谅我) 理想情况下不需要完整版的 Acrobat
听起来您正在使用 "hidden OCR" 处理扫描的书籍,即。 PDF 显示原始文档的图像,在图像后面有一层 OCRed 文本。 这允许您使用搜索功能并从文档中复制粘贴文本。
当您突出显示文本时,隐藏的字符会变得可见(尽管此行为可能取决于您使用的查看器)。 可以肯定的是,您可以将突出显示的文本复制粘贴到文本编辑器中。 这将使您能够判断您是否真的在处理如此糟糕的 OCR 质量,或者您的提取过程是否导致了 mojibake。 由于 OCR 质量在很大程度上取决于语言资源(词典、语言模型),如果输出对于像盖尔语(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我不会感到惊讶。