Kaggle：处理 CNN 中额外的未标记测试数据

Question

我正在参加 kaggle 比赛，我有额外的测试数据，但我没有标签。

我有一个 train.txt 格式的文件

train/0.jpg 5
train/1.jpg 1
train/2.jpg 10
train/3.jpg 2
train/4.jpg 22
train/5.jpg 3
etc...

所以图像 0.jpg 例如 class 5。

这继续 train/10259.jpg

然后我将这些标签分配给我的训练数据，然后是我的测试数据，这样它们就变成了。

0.jpg -> 5.0.jpg
2.jpg -> 10.2.jpg

10259 是我的火车数据集的大小。因此，我拥有训练集的所有标签。

然后我对 /test 文件夹执行相同的操作。但是，我得到的测试图像比训练图像多，因此有些测试图像我没有标签。

我正在使用 Keras ImageDataGenerator() 并且我已经将 classes 分类到文件夹中，如下所示：

在我的测试数据集中，因为我没有一些数据的标签。它与上图类似，但有些图像尚未放入其 class 文件夹中。

我不确定如何处理这些未标记的测试数据。让他们保持原样会好吗？还是我应该将它们分成另一组？

Answer 1

除非您自己（手动）标记数据或手头有另一个（高级）模型，否则您对未标记的“测试”数据无能为力。

测试数据的思想是将预测结果与真实标签进行比较——如果没有，则应丢弃测试集中的数据。

Answer 2

没有标注的数据在做分类时是没有用的。不管它是在训练、测试还是验证数据集中。

Kaggle: Dealing with extra unlabelled test data in CNN