Tika 服务器不读取 PDF 中的嵌入图像
Tika Server not reading embedded images in PDFs
您好,Tika 服务器已使用 tesseract 进行设置,但它仍然无法读取 PDF 中的嵌入图像。尝试使用两个 headers 可用,但没有帮助。
只有 PDF 文件才会出现这种情况。而 OCR 适用于其他文件 types/images.
在此处使用自定义的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。
有没有可能是低级问题?
更新:
比较日志后,似乎 OCP 正在将自定义 HTTP headers 如 X-Tika...、Postman-Token 小写为 x-tika...、postman-token 等。可以有人帮我解决可能的问题吗?
勾选https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.html
pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`
pdf扫描文档转成图片后发送到tesseract
OCP 小写自定义 headers 似乎是问题的原因。
TikaServer 1.25 不支持不区分大小写 X-Tika headers.
我已经在 Tika Server 1.26 中修复了它。
参考:https://tika.apache.org/1.26/index.html
https://issues.apache.org/jira/browse/TIKA-3320
您好,Tika 服务器已使用 tesseract 进行设置,但它仍然无法读取 PDF 中的嵌入图像。尝试使用两个 headers 可用,但没有帮助。
只有 PDF 文件才会出现这种情况。而 OCR 适用于其他文件 types/images.
在此处使用自定义的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。 有没有可能是低级问题?
更新: 比较日志后,似乎 OCP 正在将自定义 HTTP headers 如 X-Tika...、Postman-Token 小写为 x-tika...、postman-token 等。可以有人帮我解决可能的问题吗?
勾选https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.html
pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`
pdf扫描文档转成图片后发送到tesseract
OCP 小写自定义 headers 似乎是问题的原因。 TikaServer 1.25 不支持不区分大小写 X-Tika headers.
我已经在 Tika Server 1.26 中修复了它。 参考:https://tika.apache.org/1.26/index.html https://issues.apache.org/jira/browse/TIKA-3320