如何使用命令行获得对 tesseract 的字符明智的信心?

How to get character wise confidence in tesseract using command line?

我能够通过命令行使用 tesseract 4.0 获得单词级别的置信度分数。有兴趣知道是否也有办法获得角色信心。

对于单词级别的置信度,使用以下命令:

tesseract [Image name] outputbase --oem 1 -l eng --psm 8 tsv

在您的配置文件中设置 hocr_char_boxes to 1。或者,在命令行中,您更新的命令将是:

tesseract [Image name] outputbase --oem 1 -l eng --psm 8 -c hocr_char_boxes=1 hocr

注意 hocr 输出选项并在该文件中查找..._wconf,例如

 <span class='ocrx_word' id='word_1_1' title='bbox 127 344 4618 6915; x_wconf 1'>

让我知道这是否适合你,否则我会删除答案。

来源:https://github.com/tesseract-ocr/tesseract/issues/1465#issuecomment-513139976