全页文本识别数据集创建

Full Page Text Recognition Dataset Creation

我一直在阅读诸如这篇 https://arxiv.org/pdf/1704.08628.pdf 之类的 OCR 论文,但我很难弄清楚这些数据集的实际生成方式。

在链接的论文中,他们使用回归量来预测一行文本的起始位置(一个点)和高度。然后,基于该起点和高度,第二个网络执行 OCR 和行尾检测。我意识到这是一个非常简化的解释,但由此得出的结论是,他们的数据集由(至少部分)整页文本 'images' 组成,并在每行开始的位置进行注释,然后是给定行上文本的转录。或者,他们可以只使用边界框的左下点作为起点,并将框的高度作为字高(如果数据之前是使用边界框准备的,则无需重新注释)。

那么这样的数据集是如何创建的呢?查看其他数据集,似乎有一些软件可以创建 XML 文件,其中包含与每张图像相关的基本事实,有人可以指出我正确的方向吗?我一直在谷歌上搜索并找到了很多用于用情感等注释文本的工具和其他用于注释图像以进行分割的工具(对于 YOLO 网络之类的东西),但是对于创建诸如使用的 Maurdoor 数据集之类的东西,我一无所获在链接的文件中。

谢谢

所以在提交这个之后,相关的线程 window 向我展示了很多我的谷歌搜索没有出现的线程。这个 http://www.prima.cse.salford.ac.uk/tools 软件似乎正是我要找的,但我仍然很想听听其他想法。