应用欠采样技术训练和测试数据
Applying undersampling techniques to train and test data
我知道如果你执行某种转换并使用 fit() 那么你必须对训练集和测试集都进行 transform()。
假设您将 TomekLinks 等有针对性的欠采样技术应用于您的训练数据,以使模型更好地 identify\separate classes.
- 问题:
如果你打算使用该模型对测试集进行预测,你是否也对测试集执行相同的欠采样技术,或者欠采样仅用于训练集以帮助模型澄清 class 边界.然后将针对完整测试集应用经过训练的模型。
我认为您不应该对测试数据进行欠采样。虽然在训练数据上这样做是完全合理的,但在测试数据上这样做是不现实的。如果该模型用于任何在线应用程序,则需要在真实的、不平衡的数据集上进行测试。
我知道如果你执行某种转换并使用 fit() 那么你必须对训练集和测试集都进行 transform()。
假设您将 TomekLinks 等有针对性的欠采样技术应用于您的训练数据,以使模型更好地 identify\separate classes.
- 问题: 如果你打算使用该模型对测试集进行预测,你是否也对测试集执行相同的欠采样技术,或者欠采样仅用于训练集以帮助模型澄清 class 边界.然后将针对完整测试集应用经过训练的模型。
我认为您不应该对测试数据进行欠采样。虽然在训练数据上这样做是完全合理的,但在测试数据上这样做是不现实的。如果该模型用于任何在线应用程序,则需要在真实的、不平衡的数据集上进行测试。