Gensim word2vec 下采样样本=0

Gensim word2vec downsampling sample=0

Gensim word2vec 中的 sample= 0 是否意味着我在训练期间没有使用下采样？文档只说

"useful range is (0, 1e-5)"

然而将阈值设置为0会导致P(wi)等于1，这意味着不会丢弃任何单词，我的理解是否正确？

我正在处理一个包含 7597 条 Facebook 帖子（18945 个单词）的相对较小的数据集，使用 sample= 0 而不是推荐范围内的任何其他方法，我的嵌入表现要好得多。有什么特别的原因吗？字体大小？

对于 Word2Vec 训练来说，这似乎是一个非常小的数据集。（只有 18945 个独特的单词，还是总共 18945 个单词，所以每个 post 几乎不超过 2 个单词？）

采样在较大的数据集上最有用 - 那里有 如此多 的常用词示例，更多的训练示例并没有增加太多 – 但它们正在从中窃取时间，并且与其他不那么频繁的词相比，这些词的例子被压倒了。

是的，sample=0表示没有下采样。