用于训练的 Tesseract TessData 字体

Tesseract TessData fonts used for training

android
tesseract

我在 Android 应用程序中使用 tesseract 进行 OCR。我专注于中文，但我只需要识别几个关键字，所以我正在考虑使用 jTessBoxEditor 创建我的 .traineddata 文件。我想知道中文繁体TessData文件使用什么字体？ https://github.com/tesseract-ocr/tessdata

或者，有没有一种方法可以编辑 chi_tra.traineddata 文件，使其只识别几个关键字？我这样做的主要原因是文件大小为 63.4 MB，tesseract 大约需要 2 到 3 分钟才能完成。准确性很高，但速度很慢。

所有 tesseract 训练语言的 font_properties 文件可以在 github 中找到。您可以从列表中查看支持的繁体中文特定字体。

在github中的tesseract-ocr/langdata文件夹here中，您可以查看chi_tra文件夹中的chi_tra.wordlist来找到训练用到的单词。

用于训练的 Tesseract TessData 字体

Tesseract TessData fonts used for training

android

tesseract