训练 Gensim Word2vec 模型每句最小字数

Minimum Number of Words for Each Sentence for Training Gensim Word2vec Model

假设我有一个短句语料库,其中的单词数量从 1 到 500 左右,平均单词数量约为 9。如果我使用 window=5 训练 Gensim Word2vec 模型(这是默认设置),我应该使用所有的句子吗?或者我应该删除字数少的句子?如果是这样,是否有最小字数的经验法则?

只有 1 个词的文本本质上是 'empty' word2vec 算法:没有相邻的词,这是所有训练模式所必需的。你可以放下它们,但把它们留在里面也没什么坏处。它们本质上只是空操作。

任何包含 2 个或更多单词的文本都有助于训练。