我可以将 Tesseract 配置为仅检测单个字母和数字吗?

Can I configure Tesseract to detect only single letters and digits?

我正在尝试使用 Tesseract ocr 处理具有如下矩阵的特定卡片:

有什么方法可以配置 Tesseract 只提取单个字母吗?

问题是矩阵的列以字母作为标题:"A B C D E F G H I" 当我使用 BOX 文件进行训练时,每个字母都会被检测到,但是当我执行 ocr 过程时,这些字母会合并成一个单词: "ABCDEFGHI"。我需要分词是因为我需要每一列的bounds(x,y,height,width)这样会让整列的处理更加准确

谢谢,

如果您可以将间距增加得足够大,Tesseract 可以在设置变量 preserve_interword_spaces=1 后获取间距(参见 doc)。