如何使用图像数据而不是字体文件来训练 tesseract 4?
How do I train tesseract 4 with image data instead of a font file?
我正在尝试使用图像而不是字体来训练 Tesseract 4。
在 docs 中,他们只解释了字体的方法,而不是图像的方法。
我知道它是如何工作的,当我使用以前版本的 Tesseract 但我不知道如何使用 box/tiff 文件在 Tesseract 4 中使用 LSTM 进行训练。
我查看了 tesstrain.sh,它用于生成 LSTM 训练数据,但找不到任何有用的信息。有什么想法吗?
在 https://github.com/tesseract-ocr/tesstrain.
克隆测试应变回购
您还需要克隆 tessdata_best 存储库 https://github.com/tesseract-ocr/tessdata_best。这是您训练的起点。它需要数十万个训练数据样本才能获得准确性,因此使用一个好的起点可以让你用更少的数据微调你的训练(~几十到数百个样本就足够了)
将您的训练样本添加到名为 ./tesstrain/data/my-custom-model-ground-truth
的测试应变库中的目录中
您的训练样本应该是 image/text 个具有相同名称但不同扩展名的文件对。例如,您应该有一个名为 001.png
的图像文件,它是文本 foobar
的图片,并且您应该有一个名为 001.gt.txt
的文本文件,其中包含文本 foobar
。
这些文件必须是单行文本。
在 tesstrain
仓库中,运行 这个命令:
make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best
训练完成后,会有一个新文件tesstrain/data/.traineddata。将该文件复制到 Tesseract 搜索模型的目录。在我的机器上,它是 /usr/local/share/tessdata/.
然后,您可以 运行 tesseract 并将该模型用作语言。
tesseract -l my-custom-model foo.png -
我正在尝试使用图像而不是字体来训练 Tesseract 4。
在 docs 中,他们只解释了字体的方法,而不是图像的方法。
我知道它是如何工作的,当我使用以前版本的 Tesseract 但我不知道如何使用 box/tiff 文件在 Tesseract 4 中使用 LSTM 进行训练。
我查看了 tesstrain.sh,它用于生成 LSTM 训练数据,但找不到任何有用的信息。有什么想法吗?
在 https://github.com/tesseract-ocr/tesstrain.
克隆测试应变回购您还需要克隆 tessdata_best 存储库 https://github.com/tesseract-ocr/tessdata_best。这是您训练的起点。它需要数十万个训练数据样本才能获得准确性,因此使用一个好的起点可以让你用更少的数据微调你的训练(~几十到数百个样本就足够了)
将您的训练样本添加到名为 ./tesstrain/data/my-custom-model-ground-truth
您的训练样本应该是 image/text 个具有相同名称但不同扩展名的文件对。例如,您应该有一个名为 001.png
的图像文件,它是文本 foobar
的图片,并且您应该有一个名为 001.gt.txt
的文本文件,其中包含文本 foobar
。
这些文件必须是单行文本。
在 tesstrain
仓库中,运行 这个命令:
make training MODEL_NAME=my-custom-model START_MODEL=eng TESSDATA=~/src/tessdata_best
训练完成后,会有一个新文件tesstrain/data/.traineddata。将该文件复制到 Tesseract 搜索模型的目录。在我的机器上,它是 /usr/local/share/tessdata/.
然后,您可以 运行 tesseract 并将该模型用作语言。
tesseract -l my-custom-model foo.png -