带有图像的 PDF 文件的 OCR

OCR of PDF files with images

我让 Tika 使用 Tesseract 处理 PDF 文件，但似乎如果我给它一个包含可搜索文本和图像的 PDF 文件，文本会被 OCR 两次。有没有办法避免这种情况？即使它必须进行两次传递，一次用于纯文本，另一次仅用于图像

tika 用于提取文本的重要标志有 2 个：

X-Tika-PDFextractInlineImages (true/false)。当 false 比所有图像都被忽略。所以它适用于原生 pdf - 文本是从原生 pdf 中提取的当 true 比图像将用于文本提取
X-Tika-PDFocrStrategy：https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.OCR_STRATEGY.html NO_OCR - 不使用 ocr 提取文本 - 适用于原生 pdf OCR_ONLY - 仅使用 ocr - 因此来自“native pdf”的文本也被发送到 ocr OCR_AND_TEXT_EXTRACTION - 调用 NO_OCR OCR_ONLY

所以当您拥有完全原生的 pdf 时，组合 X-Tika-PDFextractInlineImages: false, X-Tika-PDFocrStrategy: NO_OCR 似乎是最好的

对于完全扫描的 pdf，您可以使用 X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY

但您的文档可能是混合文档。它包含本机部分（您只需要提取文本）和图像（您需要对其进行 ocr）。在我看来，没有办法在 tika

中处理混合 pdf