为自定义语言训练 Tesseract OCR 所需的数据

Data needed to train Tesseract OCR for custom Language

我正在尝试构建一种用于仅检测以下字符的自定义语言:

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '<', '<<<', '/']

我已经为将近 50 张图像生成了框文件并更正了错误。 我的问题是针对上述自定义字符训练 tesseract 是否需要使用由 tesseract 工具创建的图像,以便在创建 cust.traindata

时也用作输入

我从上面的数组中提取了 5 个字符的代码,并使用 tesseract 工具构建了一个图像,然后生成了正确的 .box 文件,不需要对所有可能的配置进行调整,但由于 tesseract 作为创建它是否需要为构建 cust.traindata.

提供

提前致谢。

如果我们希望 tesseract 使用默认 "eng" 语言来预测后面的字母,我们不需要创建新语言 ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q'、'R'、'S'、'T'、'U'、'V'、'W'、'X'、'Y' , 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '<' , '<<<', '/']

你只需要在tesseract中添加如下配置即可 tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<"

例如

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789<"