一个输入图像和标签如何用神经网络进行语义实例分割？

How does one input images and labels for Semantic Instance Segmentation with neural networks?

所以我知道对于标准的卷积神经网络，您可以为神经网络 (NN) 提供一个带有标签列表的文件，或者简单地按文件夹分隔您的类但例如分割，我想它是不同的吧？

例如，使用像 labelme2 这样的网站，您可以对图像进行注释和分割，然后将它们与遮罩文件和 XML 标签文件一起下载。是否需要随后将原始图像、掩码图像和 XML 文件输入到实例分割 NN 中？

提前致谢。

您需要以能够将其用于预测的方式训练您的神经网络。

如果你只想从图像中预测 classes，那么你想要发送给你的 NN 的只是
- 原始图像（可能是色彩平衡的）和
- 从 XML 预测 classes（将其转换为 1 热 class 编码）
如果你也想预测掩码，那么发送
- 原始图像（可能是色彩平衡的）和
- 从 XML 预测掩码和 classes（将其转换为 1 热 class 编码）

上述目标（仅 classes，或 classes+mask 预测）决定存储 classes 或 classes+mask .