Tess4j - Pdf 到 Tiff 到 tesseract - "Warning: Invalid resolution 0 dpi. Using 70 instead."

Tess4j - Pdf to Tiff to tesseract - "Warning: Invalid resolution 0 dpi. Using 70 instead."

我正在使用 tess4j (net.sourceforge.tess4j:tess4j:4.4.0) 并尝试对 pdf 文件进行 OCR。 因此,据我所知,我必须先将 pdf 转换为 tiff 或 png(建议的任何一种?)我是这样做的:

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile)); 

并收到以下警告:

Warning: Invalid resolution 0 dpi. Using 70 instead.

问题

如果图像元数据中没有分辨率信息,Tesseract 会尝试自行估计分辨率,以便在结果中计算字体大小信息。

您可以尝试以下 API 来设置输入图像分辨率:

instance.SetTessVariable("user_defined_dpi", "300");

TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);

您可以通过以下方式抑制控制台输出:

instance.setTessVariable("debug_file", "/dev/null");

未设置默认分辨率。

补充 nguyenq 的回答:

instance.setTessVariable("user_defined_dpi", "300");