TensorFlow - 图像中的文本识别

TensorFlow - Text recognition in image

我是 TensorFlow 和深度学习的新手。 我正在尝试识别自然场景图像中的文本。我曾经使用 OCR,但我想使用深度学习。文本始终具有相同的格式: ABC-DEF 88:88

我所做的就是识别每一个character/digit。这意味着我裁剪了每个字符周围的图像(因此每张图片给我 10 个字符)来构建我的训练和测试集,他们构建了两个卷积神经网络。所以我的训练集是一组人物图片,标签只是 characters/digits.

但我想更进一步。我想做的只是给出完整的图片并输出整个文本(而不是像我以前的模型中的一个字符)。

提前感谢您的帮助。

困难在于你不知道文本在哪里。解决方案是,给定一张图片,需要使用滑动 window 裁剪图像的不同部分,然后使用分类器来判断裁剪区域是否有文本。如果是这样,请使用您的 character/digit 识别器来判断它们的真实身份 characters/digits。

所以你需要训练另一个分类器:给定一个裁剪后的图像(裁剪后的图像的大小应该比你的文本区域的大小略大),判断里面是否有文本。

构造训练集(正样本为文本区域,负样本为大图随机裁剪的其他区域)训练即可~