向 RNN 提供句子时是否应该删除停用词

Should I remove stopwords when feed sentence to RNN

在词袋模型中,我知道我们应该在训练前去除停用词和标点符号。但是在 RNN 模型中,如果我想做文本分类,我是否也应该删除停用词?

这取决于您的模型分类的内容。如果你正在做一些事情,其中​​分类是由停用词辅助的——例如,某种程度的语法理解——那么你需要留下停用词或改变你的停用词列表,这样你就不会丢失该信息。例如,删除所有 being 动词(is、are、should be、...)可能会弄乱在某种程度上取决于句子结构的神经网络。

但是,如果您的分类是基于主题的(如您的词袋参考所建议的),则以相同的方式处理输入:在浪费宝贵的训练时间之前删除那些讨厌的停用词。