从自然图像中检测文本

Detection Text from natural images

我在tensorflow中写了一段代码，使用卷积神经网络来检测文本从图像。我使用 TFRecords 文件读取街景文本数据集，然后，我将图像的高度和宽度调整为 128。

我使用了 9-conv layer 和 zero padding 和三个 max_pool 层 window 大小为 (2×2)，步幅为 2。由于我只使用了三个池化层，最后一层的形状将是 (16×16)。最后一个转换层有 '256' 个过滤器.

我也用过，两个回归全连接层（tf.nn.sigmoid）和tf.losses.mean_squared_error作为损失函数。

我的问题是
这种架构足以进行检测过程吗？？我知道有一个叫做 NMS 的东西可以检测。还有这种情况下的标签是什么？？

一般来说，这不是一个规则，这只是基于我的经验，你应该从一个较小的网络 2 或 3 conv 层开始，然后说出会发生什么，如果你得到一些好的结果，更多地关注获胜的拓扑并调整超参数（learnrat、batchsize 等），如果您根本没有获得好的结果，请深入了解添加 conv 层。并再次评估。 12 conv 真的很大，你的问题复杂度也应该很大！否则你会达到很好的准确性，但会白白浪费大量计算机资源和时间！顺便说一句，使用金字塔形式意味着开始更宽，结束更小

从自然图像中检测文本

Detection Text from natural images

ocr

computer-vision

deep-learning

conv-neural-network

tensorflow