在测试中使用增强数据图像
Using Augmented Data Images in Testing
我正在处理行人再识别问题,并使用 CMC 曲线显示结果。
我在训练集中使用了增强 data/Image 和正常图像(目前正在 CUHK01 上训练)。在测试我是否不使用增强数据和我的正常测试图像来计算排名时,假设 Rank_1 我得到 Rank_1 ~30% 另一方面,使用增强数据给我一个 Rank_1 的 ~65-70%(相对于当前世界上的 Rank_1 准确度来说,这个数字高得离谱)。
所以我的问题是
a) 增强数据如何影响测试集,尤其是在我的案例中。
b) 我是不是过拟合了之类的。
c) 避免在测试用例中使用增强图像是否是一般规则。
使用数据增强的原因是为了减少过度拟合的可能性。通过这种方式,您可以告诉您的模型参数 (theta) 与您正在扩充的数据 (alpha) 不相关。这可以通过用每个可能的 alpha 增加每个输入来实现。但由于多种原因,这与现实相去甚远,例如time/memory 限制,您可能无法构建所有可能的扩充等,因此可能存在一些偏差。尽管如此,它仍然会降低过度拟合数据集的可能性,但它可能会过度拟合你的数据集。
因此,如果您有扩充,由于过度拟合,您可能会通过匹配扩充数据来获得更高的准确性,这是问题 a 的答案。所以我认为b题的答案是肯定的。
为了回答问题 c,我没有读过有关数据扩充的规则,但在机器学习的文献中我认为它们避免了对测试集的任何扩充。例如我引用 a paper
We augment the training images by
replacing the green screen with random background images, and
vary the appearance in terms of color and shading by intrinsic recoloring
我正在处理行人再识别问题,并使用 CMC 曲线显示结果。 我在训练集中使用了增强 data/Image 和正常图像(目前正在 CUHK01 上训练)。在测试我是否不使用增强数据和我的正常测试图像来计算排名时,假设 Rank_1 我得到 Rank_1 ~30% 另一方面,使用增强数据给我一个 Rank_1 的 ~65-70%(相对于当前世界上的 Rank_1 准确度来说,这个数字高得离谱)。
所以我的问题是
a) 增强数据如何影响测试集,尤其是在我的案例中。
b) 我是不是过拟合了之类的。
c) 避免在测试用例中使用增强图像是否是一般规则。
使用数据增强的原因是为了减少过度拟合的可能性。通过这种方式,您可以告诉您的模型参数 (theta) 与您正在扩充的数据 (alpha) 不相关。这可以通过用每个可能的 alpha 增加每个输入来实现。但由于多种原因,这与现实相去甚远,例如time/memory 限制,您可能无法构建所有可能的扩充等,因此可能存在一些偏差。尽管如此,它仍然会降低过度拟合数据集的可能性,但它可能会过度拟合你的数据集。
因此,如果您有扩充,由于过度拟合,您可能会通过匹配扩充数据来获得更高的准确性,这是问题 a 的答案。所以我认为b题的答案是肯定的。
为了回答问题 c,我没有读过有关数据扩充的规则,但在机器学习的文献中我认为它们避免了对测试集的任何扩充。例如我引用 a paper
We augment the training images by replacing the green screen with random background images, and vary the appearance in terms of color and shading by intrinsic recoloring