Tesseract OCR - 将复选框识别为单词

Question

对于一位客户，我想教 Tesseract 将复选框识别为一个词。当 Tesseract 应该识别一个空复选框时它工作正常。

此命令与 this 教程结合使用非常有效，Tesseract 能够找到空复选框并将它们解释为“[_]”：

tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train

这是我成功分析文档的命令：

tesseract test.png test -l deu1+deu2

然后我尝试训练一个选中的复选框，但出现了这个错误：

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       1
   Boxes failed resegmentation:       1
   Found 0 good blobs.
Generated training data for 0 words

有没有人知道如何教 Tesseract 也识别选中的复选框？

提前致谢！

Answer 1

经过多次尝试后，我发现当然可以教 Tesseract 不同种类的字母。但正如我今天所知，不可能教 Tesseract 一个不符合某些 "visual rules" 字母的符号。例如：一个字母总是一条连在一起的墨水线，最多是墨水和"something outside it"的组合（例如：i,ä,ö,ü）这里的问题是没有什么类似于复选框的东西（一个物体在另一个物体中）这会导致 Tesseract 恼火和崩溃。

Tesseract OCR - 将复选框识别为单词

Tesseract OCR - recognize checkboxes as word

ocr

tesseract