Kaggle:处理 CNN 中额外的未标记测试数据

Kaggle: Dealing with extra unlabelled test data in CNN

我正在参加 kaggle 比赛,我有额外的测试数据,但我没有标签。

我有一个 train.txt 格式的文件

train/0.jpg 5
train/1.jpg 1
train/2.jpg 10
train/3.jpg 2
train/4.jpg 22
train/5.jpg 3
etc...

所以图像 0.jpg 例如 class 5。

这继续 train/10259.jpg

然后我将这些标签分配给我的训练数据,然后是我的测试数据,这样它们就变成了。

0.jpg -> 5.0.jpg
2.jpg -> 10.2.jpg

10259 是我的火车数据集的大小。因此,我拥有训练集的所有标签。

然后我对 /test 文件夹执行相同的操作。但是,我得到的测试图像比训练图像多,因此有些测试图像我没有标签。

我正在使用 Keras ImageDataGenerator() 并且我已经将 classes 分类到文件夹中,如下所示:

在我的测试数据集中,因为我没有一些数据的标签。它与上图类似,但有些图像尚未放入其 class 文件夹中。

我不确定如何处理这些未标记的测试数据。让他们保持原样会好吗?还是我应该将它们分成另一组?

除非您自己(手动)标记数据或手头有另一个(高级)模型,否则您对未标记的“测试”数据无能为力。

测试数据的思想是将预测结果与真实标签进行比较——如果没有,则应丢弃测试集中的数据。

没有标注的数据在做分类时是没有用的。不管它是在训练、测试还是验证数据集中。