如何使用图像数据而不是字体文件来训练 tesseract 4?

How do I train tesseract 4 with image data instead of a font file?

我正在尝试使用图像而不是字体来训练 Tesseract 4。

docs 中,他们只解释了字体的方法,而不是图像的方法。

我知道它是如何工作的,当我使用以前版本的 Tesseract 但我不知道如何使用 box/tiff 文件在 Tesseract 4 中使用 LSTM 进行训练。

我查看了 tesstrain.sh,它用于生成 LSTM 训练数据,但找不到任何有用的信息。有什么想法吗?

https://github.com/tesseract-ocr/tesstrain.

克隆测试应变回购

您还需要克隆 tessdata_best 存储库 https://github.com/tesseract-ocr/tessdata_best。这是您训练的起点。它需要数十万个训练数据样本才能获得准确性,因此使用一个好的起点可以让你用更少的数据微调你的训练(~几十到数百个样本就足够了)

将您的训练样本添加到名为 ./tesstrain/data/my-custom-model-ground-truth

的测试应变库中的目录中

您的训练样本应该是 image/text 个具有相同名称但不同扩展名的文件对。例如,您应该有一个名为 001.png 的图像文件,它是文本 foobar 的图片,并且您应该有一个名为 001.gt.txt 的文本文件,其中包含文本 foobar

这些文件必须是单行文本。

tesstrain 仓库中,运行 这个命令:

make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best

训练完成后,会有一个新文件tesstrain/data/.traineddata。将该文件复制到 Tesseract 搜索模型的目录。在我的机器上,它是 /usr/local/share/tessdata/.

然后,您可以 运行 tesseract 并将该模型用作语言。

tesseract -l my-custom-model foo.png -