在测试中使用增强数据图像

Using Augmented Data Images in Testing

我正在处理行人再识别问题,并使用 CMC 曲线显示结果。 我在训练集中使用了增强 data/Image 和正常图像(目前正在 CUHK01 上训练)。在测试我是否不使用增强数据和我的正常测试图像来计算排名时,假设 Rank_1 我得到 Rank_1 ~30% 另一方面,使用增强数据给我一个 Rank_1 的 ~65-70%(相对于当前世界上的 Rank_1 准确度来说,这个数字高得离谱)。

所以我的问题是

a) 增强数据如何影响测试集,尤其是在我的案例中。

b) 我是不是过拟合了之类的。

c) 避免在测试用例中使用增强图像是否是一般规则。

使用数据增强的原因是为了减少过度拟合的可能性。通过这种方式,您可以告诉您的模型参数 (theta) 与您正在扩充的数据 (alpha) 不相关。这可以通过用每个可能的 alpha 增加每个输入来实现。但由于多种原因,这与现实相去甚远,例如time/memory 限制,您可能无法构建所有可能的扩充等,因此可能存在一些偏差。尽管如此,它仍然会降低过度拟合数据集的可能性,但它可能会过度拟合你的数据集。

因此,如果您有扩充,由于过度拟合,您可能会通过匹配扩充数据来获得更高的准确性,这是问题 a 的答案。所以我认为b题的答案是肯定的。

为了回答问题 c,我没有读过有关数据扩充的规则,但在机器学习的文献中我认为它们避免了对测试集的任何扩充。例如我引用 a paper

We augment the training images by replacing the green screen with random background images, and vary the appearance in terms of color and shading by intrinsic recoloring