应用欠采样技术训练和测试数据

Applying undersampling techniques to train and test data

我知道如果你执行某种转换并使用 fit() 那么你必须对训练集和测试集都进行 transform()。

假设您将 TomekLinks 等有针对性的欠采样技术应用于您的训练数据,以使模型更好地 identify\separate classes.

我认为您不应该对测试数据进行欠采样。虽然在训练数据上这样做是完全合理的,但在测试数据上这样做是不现实的。如果该模型用于任何在线应用程序,则需要在真实的、不平衡的数据集上进行测试。