Word2Vec 和 Gensim 参数等价

Word2Vec and Gensim parameters equivalence

Gensim 是 Word2Vec 的优化 python 端口(参见 http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/

我目前正在使用这些载体:http://clic.cimec.unitn.it/composes/semantic-vectors.html

我将使用 gensim 重新运行模型训练,因为他们的模型中有一些嘈杂的标记。所以我想找出 gensim

word2vec 的一些等效参数

他们在word2vec中使用的参数是:

当我训练 Word2Vec 模型时,gensim 等价性是多少?

是吗:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

gensim中有PMI权重选项吗?

word2vec中默认使用的min_count是什么?

word2vec 中还有另一组参数:

gensim中有负样本参数吗?

gensim中subsampling的参数等值是多少?

  1. 您 link 的论文比较了多种方案的词嵌入,包括连续词袋 (CBOW)。 CBOW 是 Gensim 的 "word2vec" 模型中实现的模型之一。该论文还讨论了使用各种加权方案从奇异值分解获得的词嵌入,其中一些涉及 PMI。 SVD 和 word2vec 之间没有等价关系,但是如果你想在 gensim 中做一个 SVD,它在自然语言处理中被称为 "LSA" 或 "Latent Semantic Analysis"。

  2. min_count参数默认设置为5,可见here

  3. Negative Sampling 和 Hierarchical Softmax 是两种近似推理方法,用于估计离散 space 上的概率分布(在普通 softmax 计算量太大时使用)。 Gensim 的 word2vec 实现了两者。它默认使用分层 softmax,但您可以通过将超参数 negative 设置为大于零来使用负采样。这也记录在 gensim 代码 here 的注释中。