构建我们自己的图像检测模型的过程

Process to build our own model for image detection

目前我在做图像检测的深度神经网络，建立了一个叫YOLO Network的模型，做物体检测很强大，但是我有一个问题：

我们如何设计和构思我们自己的模型？我们是否为此使用蛮力，例如 "I use 2 convolutional and 1 pooling layer and 1 fully connected layer" 之后，如果结果不好，我会更改层数并更改参数，直到找到最佳模型，请如果有人知道一些关于那个的信息，告诉我怎么做？

我使用 Tensorflow。

谢谢，

有几篇论文解决了这个问题。例如，在 http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf 中提到了一些一般原则，例如通过在将输出与输入分开的图形的任何切割中不要有太快的变化来保存信息。

另一篇论文是 https://arxiv.org/pdf/1606.02228.pdf，其中尝试了特定的超参数组合。

剩下的就是你在实践中观察到的，取决于你的数据集和你的要求。也许你有性能要求，因为你想部署到移动设备或者你需要超过 90% 的准确率。然后你将不得不相应地选择你的模型。