从自然图像中检测文本
Detection Text from natural images
我在tensorflow中写了一段代码,使用卷积神经网络来检测文本从图像。我使用 TFRecords 文件读取街景文本数据集,然后,我将图像的高度和宽度调整为 128。
我使用了 9-conv layer 和 zero padding 和三个 max_pool 层 window 大小为 (2×2),步幅为 2。由于我只使用了三个池化层,最后一层的形状将是 (16×16)。最后一个转换层有 '256' 个过滤器.
我也用过,两个回归全连接层(tf.nn.sigmoid)和tf.losses.mean_squared_error作为损失函数。
我的问题是
这种架构足以进行检测过程吗??我知道有一个叫做 NMS 的东西可以检测。还有这种情况下的标签是什么??
一般来说,这不是一个规则,这只是基于我的经验,你应该从一个较小的网络 2 或 3 conv 层开始,然后说出会发生什么,如果你得到一些好的结果,更多地关注获胜的拓扑并调整超参数(learnrat、batchsize 等),如果您根本没有获得好的结果,请深入了解添加 conv 层。并再次评估。 12 conv 真的很大,你的问题复杂度也应该很大!否则你会达到很好的准确性,但会白白浪费大量计算机资源和时间!顺便说一句,使用金字塔形式意味着开始更宽,结束更小
我在tensorflow中写了一段代码,使用卷积神经网络来检测文本从图像。我使用 TFRecords 文件读取街景文本数据集,然后,我将图像的高度和宽度调整为 128。
我使用了 9-conv layer 和 zero padding 和三个 max_pool 层 window 大小为 (2×2),步幅为 2。由于我只使用了三个池化层,最后一层的形状将是 (16×16)。最后一个转换层有 '256' 个过滤器.
我也用过,两个回归全连接层(tf.nn.sigmoid)和tf.losses.mean_squared_error作为损失函数。
我的问题是
这种架构足以进行检测过程吗??我知道有一个叫做 NMS 的东西可以检测。还有这种情况下的标签是什么??
一般来说,这不是一个规则,这只是基于我的经验,你应该从一个较小的网络 2 或 3 conv 层开始,然后说出会发生什么,如果你得到一些好的结果,更多地关注获胜的拓扑并调整超参数(learnrat、batchsize 等),如果您根本没有获得好的结果,请深入了解添加 conv 层。并再次评估。 12 conv 真的很大,你的问题复杂度也应该很大!否则你会达到很好的准确性,但会白白浪费大量计算机资源和时间!顺便说一句,使用金字塔形式意味着开始更宽,结束更小