Tesseract box/tif 文件名中的字体名称重要吗?
Does the font name in Tesseract box/tif filenames matter?
在 Tesseract wiki 中,训练中使用的标记为 tif/box 的文件文件名的格式为 [lang].[fontname].exp[num]
。 fontname
是否真的会影响培训,或者这只是为了记账?
在我的特殊情况下,我有大量具有不同字体的文档图像(而且我不知道它们中有哪些字体)。我可以只对我手动标记的每个文档使用 eng.idontknow.exp[num]
吗?或者这会因为某种原因搞乱训练吗?提前致谢!
最好匹配真实的字体(以帮助可能的 post-OCR 分析),但它可以是任意字体名称。
在 Tesseract wiki 中,训练中使用的标记为 tif/box 的文件文件名的格式为 [lang].[fontname].exp[num]
。 fontname
是否真的会影响培训,或者这只是为了记账?
在我的特殊情况下,我有大量具有不同字体的文档图像(而且我不知道它们中有哪些字体)。我可以只对我手动标记的每个文档使用 eng.idontknow.exp[num]
吗?或者这会因为某种原因搞乱训练吗?提前致谢!
最好匹配真实的字体(以帮助可能的 post-OCR 分析),但它可以是任意字体名称。