机器学习 - 训练数据与 'has to be classified' 数据

Machine Learning - training data vs 'has to be classified' data

我有一个关于机器学习数据预处理的一般性问题。 我知道将数据集中在 0 附近(均值减法)、标准化数据(消除方差)几乎是必须要做的。还有其他可能的技术。这必须用于训练数据和验证数据集。

我遇到了以下问题。如果我不将这种预处理技术应用于必须分类的图像,我的神经网络将无法对图像中的特定形状进行分类。 'to classify' 图像当然不包含在训练集或验证集中。因此我的问题:

对必须分类的数据应用归一化是否正常,或者我的网络在没有这种技术的情况下表现不佳是否意味着我的模型在某种意义上是不好的,它未能泛化和过度装了吗?

P.S。在 'to classify' 图像上使用归一化后,我的模型表现相当不错(准确率约为 90%),不低于 30%。

其他信息:模型:使用 keras 和 tensorflow 的卷积神经网络。

不言而喻(尽管诚然,在介绍性教程中很少明确提及,因此初学者经常感到沮丧)输入模型进行分类的新数据必须经过 非常相同的预处理训练(和测试)数据的处理步骤

这里当然需要一些常识:在各种 ML 建模中,新的输入数据应该与用于训练和测试的原始数据具有相同的 "general form";相反的情况(即你一直在尝试执行的操作),如果你停下来想一想,你应该能够说服自己这没有多大意义......

以下答案可能会帮助您理清思路,还说明了在必要时逆变换预测的情况: