Tesseract 我如何训练我的数据集

Question

我有一个包含很多 gt.txt 和大约 1000 个文件的 tiff 文件的数据集，我尝试使用 tesstrain 项目和运行遵循命令 make training MODEL_NAME=cmc7 TESSDATA=path/to/tessdata_best 此命令运行成功，但当我尝试使用经过训练的数据时，它无法按预期工作。我的问题是为 tesseract 训练我的数据集的正确形式是什么？谢谢。

Answer 1

为了用图像训练我的数据集，除了图像之外，我还使用了 2 种类型的文件：

具有预期输出的 gt.txt 个文件
box 文件 由图像生成，我想用

我将所有 3 个文件放在 tesstrain/data/my-model-ground-truth 和运行中，从测试文件夹中执行以下命令：

make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best

假设您想在 tessdata_best 存储库的 eng.traineddata 之上进行训练： https://github.com/tesseract-ocr/tessdata_best

在 tesstrain/data 文件夹中生成 my-model.traineddata

Tesseract 我如何训练我的数据集

Tesseract how could I training my dataset

tesseract

tess4j