如何将残疾人 (PwD) 符号添加到 tesseract 数据集

how to add person with disability (PwD) symbol to tesseract dataset

我正在使用 python 进行车牌识别。我与 tesseract 合作做 OCR recognition.For 我的项目我希望在 tesseract 库中包含残疾人符号。我查看了以下用于更新 tesseract 库的链接 tutorial for tesseract library update 我按照创建 tff 文件的步骤进行操作,但因通知图像未指定字体而失败。 我从研究文献中了解到人们添加了各种类型的字体和数字样式,但找不到有关如何将图像添加到 tesseract 数据集中的信息。 谁能建议我如何成功地将图像添加到 tesseract 数据集中?如果有人向我提供与该问题相关的链接或信息,我将不胜感激

要在 tesseract 库中训练新数据,您需要以下软件包 (i) jTessBoxEditor (ii)notepad++ (iii) serak trainer

jTessBoxEditor 可以从这里下载jTessBoxEditordownload link,它也需要运行时 java 环境。它接受 .txt 格式的输入。

您可以使用notepadd++输入特殊字符。输入字符的程序可以从找到 例如,要输入PwD符号,您可以按住ALT键然后从数字键盘输入+9855,该符号将出现在记事本++中。输入字符后保存为.txt 类型。

打开 jTessBoxEditor 并单击 Tiff/Box 生成器将 .txt 文件作为输入,同时更改支持您的字符的字体样式。对于 Pwd 符号,我选择 segoeuisymbol。 tif 将存储在创建 .txt 文件的文件夹中。 要训​​练 tessdata,您需要可以从 serak download link The procedures for using serak trainer can be found from the videoserak trainer video 下载的 seraktrainer 它解释了创建 tessdata 的分步过程,即经过训练的数据文件

希望这对某人有用