用于训练的 Tesseract TessData 字体

Tesseract TessData fonts used for training

我在 Android 应用程序中使用 tesseract 进行 OCR。我专注于中文,但我只需要识别几个关键字,所以我正在考虑使用 jTessBoxEditor 创建我的 .traineddata 文件。我想知道中文繁体TessData文件使用什么字体? https://github.com/tesseract-ocr/tessdata

或者,有没有一种方法可以编辑 chi_tra.traineddata 文件,使其只识别几个关键字?我这样做的主要原因是文件大小为 63.4 MB,tesseract 大约需要 2 到 3 分钟才能完成。准确性很高,但速度很慢。

所有 tesseract 训练语言的 font_properties 文件可以在 github 中找到。您可以从列表中查看支持的繁体中文特定字体。

在github中的tesseract-ocr/langdata文件夹here中,您可以查看chi_tra文件夹中的chi_tra.wordlist来找到训练用到的单词。