Tesseract (OCR) 特殊字符白名单

Special Character Whitelist with Tesseract (OCR)

我正在尝试通过 OCR 读取一些货币值,问题是我想告诉他他应该识别哪些字符。

这是我当前的白名单

       Version : Tesseract from Charles Weld v3.0.2
       tessedit_char_whitelist "0123456789,.$"

如何添加美分 (¢)?

更新 1:如果我将 ¢ 添加到列表中,它不会识别它。

好的,在第一次没能理解这个问题后,我有一个更相关的答案。

ocr.SetVariable("tessedit_char_whitelist", "0123456789,.$¢");

以字符串形式提供参数名称和值,就像在配置文件中一样。例如

SetVariable("tessedit_char_whitelist", "xyz"); to whitelist x, y and z. 

还要确保

SetVariable("classify_bln_numeric_mode", "1 or 0"); 

设置纯数字模式或禁用纯数字模式。哪一个满足您的需求我猜在您的情况下应该禁用它,因为您使用的是字符和数字。

希望对您有所帮助!如果不让我知道,我会删除答案(我不得不使用答案,因为我不能在 50 个代表以下发表评论,否则我会先发表评论以获取有关该问题的更多信息)干杯!