Gensim word2vec 下采样样本=0

Gensim word2vec downsampling sample=0

Gensim word2vec 中的 sample= 0 是否意味着我在训练期间没有使用下采样?文档只说

"useful range is (0, 1e-5)"

然而将阈值设置为0会导致P(wi)等于1,这意味着不会丢弃任何单词,我的理解是否正确?

我正在处理一个包含 7597 条 Facebook 帖子(18945 个单词)的相对较小的数据集,使用 sample= 0 而不是推荐范围内的任何其他方法,我的嵌入表现要好得多。有什么特别的原因吗?字体大小?

对于 Word2Vec 训练来说,这似乎是一个非常小的数据集。 (只有 18945 个独特的单词,还是总共 18945 个单词,所以每个 post 几乎不超过 2 个单词?)

采样在较大的数据集上最有用 - 那里有 如此多 的常用词示例,更多的训练示例并没有增加太多 – 但它们正在从中窃取时间,并且与其他不那么频繁的词相比,这些词的例子被压倒了。

是的,sample=0表示没有下采样。