Windows 的 tesseract 训练
tesseract training on Windows
我正在尝试使用 UB-Manheim. I am following the training procedure described in the wiki 提供的二进制文件在 Windows 7 上为一种新语言训练 tesseract。 text2image
效果很好并生成文件。但是,当我 运行 tesseract ... box.train
时出现以下错误:
read_params_file: Can't open box.train
二进制文件缺少什么吗?是否可以在 Windows 上训练 tesseract 或者我应该切换到 Linux?
您需要 tessdata\configs
文件夹下的 configs 个文件。
我建议你在 Linux 上训练 tesseract 并使用 lang.traineddata Windows。 我在 linux 上训练 tesseract 3.04 波斯语 batch file(train.sh) 并在 Windows.
上使用 far.traineddata
for i in `ls -1 *.png`; do j=`echo $i| sed "s/\.png//"`;enter code heretesseract $i $j nobatch box.train; done
unicharset_extractor *.box
shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr
mftraining -F font_properties -U unicharset -O far.unicharset *.tr
cntraining *.tr
mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable
combine_tessdata far.
我正在尝试使用 UB-Manheim. I am following the training procedure described in the wiki 提供的二进制文件在 Windows 7 上为一种新语言训练 tesseract。 text2image
效果很好并生成文件。但是,当我 运行 tesseract ... box.train
时出现以下错误:
read_params_file: Can't open box.train
二进制文件缺少什么吗?是否可以在 Windows 上训练 tesseract 或者我应该切换到 Linux?
您需要 tessdata\configs
文件夹下的 configs 个文件。
我建议你在 Linux 上训练 tesseract 并使用 lang.traineddata Windows。 我在 linux 上训练 tesseract 3.04 波斯语 batch file(train.sh) 并在 Windows.
上使用 far.traineddata for i in `ls -1 *.png`; do j=`echo $i| sed "s/\.png//"`;enter code heretesseract $i $j nobatch box.train; done
unicharset_extractor *.box
shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr
mftraining -F font_properties -U unicharset -O far.unicharset *.tr
cntraining *.tr
mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable
combine_tessdata far.