Tesseract 我如何训练我的数据集

Tesseract how could I training my dataset

我有一个包含很多 gt.txt 和大约 1000 个文件的 tiff 文件的数据集,我尝试使用 tesstrain 项目和 运行 遵循命令 make training MODEL_NAME=cmc7 TESSDATA=path/to/tessdata_best 此命令 运行 成功,但当我尝试使用经过训练的数据时,它无法按预期工作。我的问题是为 tesseract 训练我的数据集的正确形式是什么?谢谢。

为了用图像训练我的数据集,除了图像之外,我还使用了 2 种类型的文件:

  • 具有预期输出的 gt.txt 个文件
  • box 文件 由图像生成,我想用
  • 训练模型

我将所有 3 个文件放在 tesstrain/data/my-model-ground-truth 和 运行 中,从测试文件夹中执行以下命令:

make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best

假设您想在 tessdata_best 存储库的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best

tesstrain/data 文件夹中生成 my-model.traineddata