Tesseract - 使用与用于主要 OCR 的图像格式不同的图像格式进行训练

Tesseract - train with different image format than used for primary OCR

正如在此 SO Question 上所讨论的,tesseract 使用 .png 文件通常比使用 .tiff 文件运行得更好。 (我自己也亲身经历过)。遗憾的是,可以处理 .png 文件的框编辑器较少。因此,我很想使用 .tiff 文件训练我的数据,然后将 .png 文件用于我的主要 OCR 工作。这样做会不会降低培训的效果?如果是这样,有什么方法可以解决它(除了找到可以接受 .png 文件的框编辑器之外)?

一些编辑器,例如 jTessBoxEditor(Tesseract AddOns 页面)同时支持 TIFF 和 PNG 格式。由于 TIFF 可以是多页图像,因此与单页 PNG 相比,它可以为您的字符集提供更多样本。

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract