ResNet 需要什么类型的输入？

What type of input does ResNet need?

我是深度学习的新手，我正在尝试训练 ResNet50 模型来对 3 种不同的手术工具进行分类。问题是我阅读的每篇文章都告诉我我需要使用 224 X 224 图像来训练 ResNet，但我拥有的图像大小为 512 X 288。

所以我的问题是：

是否可以在不裁剪图像的情况下使用512 X 288图像训练ResNet？我不想裁剪图像，因为工具在图像中的位置相当随机，而且我认为裁剪图像也会剪掉部分工具。
对于训练集和测试集图像，是否需要在要分类的对象周围画一个矩形？
如果多个不同的对象在一张图像中可以吗？我用的数据集经常出现多个工具出现在一张图片中，不知是否一定要只用一次只出现一个工具的图片
如果我要裁剪图像以适合一种工具，即使图像大小不同也可以吗？

谢谢。

Is it possible to use 512 X 288 images to train ResNet without cropping the images? I do not want to crop the image because the tools are positioned rather randomly inside the image, and I think cropping the image will cut off part of the tools as well.

是的，您可以在不裁剪图像的情况下训练 ResNet。您可以调整它们的大小，或者如果由于某种原因无法做到这一点，您可以更改网络，例如在最后添加一个全局池并考虑不同的输入大小。（您可能需要更改内核大小或下采样率）。
如果您最大的问题是 resnet 需要 224x224 而您的图像大小为 512x228，最简单的解决方案是首先将它们调整为 224x224。仅当出于某些技术原因这对您来说不可能时，然后通过在末尾添加全局池来创建一个完全卷积网络。（我猜 ResNet 最后确实有一个 GP，如果没有，您可以添加它。）

For the training and test set images, do I need to draw a rectangle around the object I want to classify?

对于分类没有，你没有。仅当您想要进行检测时才需要为对象设置边界框（即当您希望模型也围绕感兴趣的对象绘制矩形时。）

Is it okay if multiple different objects are in one image? The data set I am using often has multiple tools appearing in one image, and I wonder if I must only use images that only have one tool appearing at a time.

3.Its 可以在一张图像中包含多个不同的对象，只要它们不属于您正在训练的不同类。也就是说，如果你试图对苹果和橙子进行分类，很明显，一个图像不能同时包含它们。但是，如果它包含其他任何东西，螺丝刀、钥匙、人、黄瓜等，那没问题。

If I were to crop the images to fit one tool, will it be okay even if the sizes of the images vary?

这取决于您的型号。裁剪和图像大小是两个不同的东西。您可以裁剪任何尺寸的图像，然后将其调整为您想要的尺寸。您通常希望所有图像都具有相同的尺寸，因为这会让您的生活更轻松，但这并不困难，并且根据您的要求，您也可以使用不同的图像等。

ResNet 需要什么类型的输入？

What type of input does ResNet need?

python

deep-learning

resnet

image-classification