在输入 NLP 模型之前，您是否必须清理测试数据？

Do you have to clean your test data before feeding into an NLP model?

这是一个自然语言处理相关的问题。

假设我有一个标记的训练集和一个未标记的测试集。在我清理了我的训练数据（停用词、词干、标点符号等）之后，我使用这些清理过的数据来构建我的模型。

将其拟合到我的测试数据时，我是否还必须使用与训练集相同的方式清理测试数据文本？还是我不应该完全触摸测试数据。

谢谢！

是的，您应该对训练和测试数据集进行完全相同的预处理。

是的，数据清理是机器学习或 NLP 问题中的必经步骤。所以你必须总是首先清理我们的数据，然后只需要将它提供给模型。

注册。测试和训练数据清理 --> 你可以清理这两个数据，这样做没有坏处。