带有图像的 PDF 文件的 OCR

OCR of PDF files with images

我让 Tika 使用 Tesseract 处理 PDF 文件,但似乎如果我给它一个包含可搜索文本和图像的 PDF 文件,文本会被 OCR 两次。有没有办法避免这种情况?即使它必须进行两次传递,一次用于纯文本,另一次仅用于图像

tika 用于提取文本的重要标志有 2 个:

  1. X-Tika-PDFextractInlineImages (true/false)。 当 false 比所有图像都被忽略。所以它适用于原生 pdf - 文本是从原生 pdf 中提取的 当 true 比图像将用于文本提取
  2. X-Tika-PDFocrStrategy:https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.OCR_STRATEGY.html NO_OCR - 不使用 ocr 提取文本 - 适用于原生 pdf OCR_ONLY - 仅使用 ocr - 因此来自“native pdf”的文本也被发送到 ocr OCR_AND_TEXT_EXTRACTION - 调用 NO_OCR OCR_ONLY

所以当您拥有完全原生的 pdf 时,组合 X-Tika-PDFextractInlineImages: false, X-Tika-PDFocrStrategy: NO_OCR 似乎是最好的

对于完全扫描的 pdf,您可以使用 X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY

但您的文档可能是混合文档。它包含本机部分(您只需要提取文本)和图像(您需要对其进行 ocr)。在我看来,没有办法在 tika

中处理混合 pdf