Gensim word2vec 模型是否与 Mikolov 的标准模型相同?
Is the Gensim word2vec model same as the standard model by Mikolov?
我正在实施一篇论文来比较我们的表现。在论文中,uathor 说
300-dimensional pre-trained word2vec vectors (Mikolov et al., 2013)
我想知道预训练的 word2vec Gensim 模型 here is same as the pretrained embeddings on the official Google site(GoogleNews-vectors-negative300.bin.gz 文件)
我怀疑的来源是 Gensim 文档中的这一行(在 Word2Vec 演示部分)
We will fetch the Word2Vec model trained on part of the Google News dataset, covering approximately 3 million words and phrases
这是否意味着 gensim 上的模型未完全训练?它与 Mikolov 的官方嵌入不同吗?
用于读取词向量的演示代码正在下载完全相同的 Google 训练的 GoogleNews-vectors-negative300
向量集。 (没有其他人可以尝试重新训练该数据集,因为新闻文章用户的原始语料库,如果我没记错的话,2013 年左右超过 100B 词的训练数据,是 Google 内部的。)
在算法上,gensim
Word2Vec
实现是在 Google/Mikolov 发布的 word2vec.c
代码之后紧密建模的,因此应该在可衡量的方面匹配其结果新训练的向量。 (线程方法的细微差别可能会略有不同。)
我正在实施一篇论文来比较我们的表现。在论文中,uathor 说
300-dimensional pre-trained word2vec vectors (Mikolov et al., 2013)
我想知道预训练的 word2vec Gensim 模型 here is same as the pretrained embeddings on the official Google site(GoogleNews-vectors-negative300.bin.gz 文件)
我怀疑的来源是 Gensim 文档中的这一行(在 Word2Vec 演示部分)
We will fetch the Word2Vec model trained on part of the Google News dataset, covering approximately 3 million words and phrases
这是否意味着 gensim 上的模型未完全训练?它与 Mikolov 的官方嵌入不同吗?
用于读取词向量的演示代码正在下载完全相同的 Google 训练的 GoogleNews-vectors-negative300
向量集。 (没有其他人可以尝试重新训练该数据集,因为新闻文章用户的原始语料库,如果我没记错的话,2013 年左右超过 100B 词的训练数据,是 Google 内部的。)
在算法上,gensim
Word2Vec
实现是在 Google/Mikolov 发布的 word2vec.c
代码之后紧密建模的,因此应该在可衡量的方面匹配其结果新训练的向量。 (线程方法的细微差别可能会略有不同。)