我可以将 Tesseract 配置为仅检测单个字母和数字吗？

Can I configure Tesseract to detect only single letters and digits?

ocr
tesseract

我正在尝试使用 Tesseract ocr 处理具有如下矩阵的特定卡片：

有什么方法可以配置 Tesseract 只提取单个字母吗？

问题是矩阵的列以字母作为标题："A B C D E F G H I" 当我使用 BOX 文件进行训练时，每个字母都会被检测到，但是当我执行 ocr 过程时，这些字母会合并成一个单词： "ABCDEFGHI"。我需要分词是因为我需要每一列的bounds(x,y,height,width)这样会让整列的处理更加准确

谢谢，

如果您可以将间距增加得足够大，Tesseract 可以在设置变量 preserve_interword_spaces=1 后获取间距（参见 doc）。

我可以将 Tesseract 配置为仅检测单个字母和数字吗？

Can I configure Tesseract to detect only single letters and digits?

ocr

tesseract