在输入 NLP 模型之前,您是否必须清理测试数据?

Do you have to clean your test data before feeding into an NLP model?

这是一个自然语言处理相关的问题。

假设我有一个标记的训练集和一个未标记的测试集。在我清理了我的训练数据(停用词、词干、标点符号等)之后,我使用这些清理过的数据来构建我的模型。

将其拟合到我的测试数据时,我是否还必须使用与训练集相同的方式清理测试数据文本?还是我不应该完全触摸测试数据。

谢谢!

是的,您应该对训练和测试数据集进行完全相同的预处理。

是的,数据清理是机器学习或 NLP 问题中的必经步骤。 所以你必须总是首先清理我们的数据,然后只需要将它提供给模型。

注册。测试和训练数据清理 --> 你可以清理这两个数据,这样做没有坏处。