tesseract box文件中第五列是什么意思?

What is the meaning of the fifth column in tesseract box files?

在Tesseract盒子文件训练过程中,我发现需要写一个脚本来移动一些盒子。我打开一个盒子文件以确定哪一列对应于 X/Y/W/H,并发现了第五列。 Tesseract wiki 不提供任何解释,并且 "Make Box Files" 部分中给出的示例仅在第五列中包含零。我的训练文件包含其他符号。例如,这些是我发现的一些符号:[":,}'4.*<&\;\|]。这些是什么意思?

如果我没记错的话,第五列是字符白名单。这样您就可以为一个区域指定仅数字,而另一个区域为文本。

Tesseract 将只识别给定区域白名单中的符号。

您可能指的是第六列或最后一列,它表示页码(参见 Training wiki)。听起来你的盒子文件没有正确生成。