CNN for MNIST 高效滑动windows,实时检测

CNN for MNIST with efficient sliding windows, to detect in realtime

我想训练一个可以对高分辨率图像进行实时推理的 CNN。 CNN 必须读取由 5 位数字组成的手写数字。

到目前为止,我在 MNIST 上训练了 LeNet-5、Overfeat 和 Yolo。

LeNet-5 给了我很好的准确度,但是通过简单的滑动 windows 方法,我最终在 FullHD 图像上得到了 4000 windows(虽然有很大的进步),这是不够快。 (10 毫秒 window 在 CPU->40sek 每张图片)

所以我研究了一些更有效的滑动方式 window 并遇到了 Overfeat。它对整个图片进行卷积并创建一个 Class 维输出数组 [windowsX, windowsY, Classes]。这里的好处是不必多次计算重叠区域。现在我正在尝试借助 slim 来训练和评估网络。

最后,关于我的问题:

这个问题有更好的方法或CNN吗?

谢谢!

您可以构建一个 CRNN 模型来提高准确性。它由卷积神经网络 (CNN) 层、递归神经网络 (RNN) 层和最终的连接主义时间分类 (CTC) 层组成。

CRNN Github Reference

Building a CRNN Model