文本挖掘预处理必须应用于测试或训练集?

text mining preprocessing must be applied to test or to train set?

我正在做一些文本挖掘任务,我有一个如此简单的问题,我仍然无法得出结论。

我正在对我的训练集应用预处理,例如标记化和词干提取,以便我可以训练我的模型。

我是否也应该将此预处理应用于我的测试集?

是的,您应该将相同的东西应用到您的测试集。因为您的测试集必须代表您的训练集,所以它们应该来自相同的分布。让我们直观地思考一下:

您将参加考试。为了您准备考试并获得正常结果,讲师应该在讲座中从相同的科目提问。但是,如果讲师问的是完全不同的学科,没有人见过,就不可能得到正常的结果。

当然应该。如果没有,您如何将您的测试数据输入到您的训练模型中?