使用 word2vec 时删除停用词

stopword removing when using the word2vec

我已经使用 gensim 的 word2vec 库尝试 word2vec 一段时间了。我的问题是我是否必须从输入文本中删除停用词?因为,根据我最初的实验结果,当我执行 model.most_similar('someword')..?

时,我可以看到像 'of'、'when'..(停用词)这样的词弹出

但我没有看到任何地方提到 word2vec 必须删除停用词? word2vec 是否应该处理停用词,即使您不删除它们?

什么是必须做的预处理事情(比如主题建模,你应该做停用词删除几乎是必须的)?

我个人认为,删除停用词会得到更好的结果,检查link

同样对于主题建模,你应该对文本进行预处理,下面是你必须做的事情,

  1. 删除停用词。
  2. Tokenization.
  3. Stemming and Lemmatization.

Gensim 的实现是基于 word2vec 的原始 Tomas Mikolov 模型,然后根据频率自动对所有频繁词进行下采样。

the paper所述:

We show that subsampling of frequent words during training results in a significant speedup (around 2x - 10x), and improves accuracy of the representations of less frequent words.

意思是这些词有时不在window的待预测词中考虑。默认为 0.001 的示例参数用作修剪这些单词的参数。如果你想删除一些根据其频率不会被删除的特定停用词,你可以这样做。

总结:如果你删除停用词,结果不会有任何显着差异。