文本挖掘预处理必须应用于测试或训练集？

text mining preprocessing must be applied to test or to train set?

我正在做一些文本挖掘任务，我有一个如此简单的问题，我仍然无法得出结论。

我正在对我的训练集应用预处理，例如标记化和词干提取，以便我可以训练我的模型。

我是否也应该将此预处理应用于我的测试集？

是的，您应该将相同的东西应用到您的测试集。因为您的测试集必须代表您的训练集，所以它们应该来自相同的分布。让我们直观地思考一下：

您将参加考试。为了您准备考试并获得正常结果，讲师应该在讲座中从相同的科目提问。但是，如果讲师问的是完全不同的学科，没有人见过，就不可能得到正常的结果。

当然应该。如果没有，您如何将您的测试数据输入到您的训练模型中？