使用 GloVe 获取最相似的单词

Get most similar words using GloVe

我是 GloVe 的新手。我成功地 运行 他们 demo.sh 在他们的网站上给出。在 运行 演示之后,我创建了几个文件,例如 vocabvectors 等。但是他们没有任何文档或任何描述我们需要使用哪些文件以及如何使用它来查找的文件最相似的词。

因此,请帮我找到在 GloVe 中给定的单词最相似的单词(使用余弦相似度)? (例如,像 Gensim word2vec 中的 most.similar

请帮帮我!

词向量是如何生成的并不重要,你总是可以计算词之间的余弦相似度。实现您要求的最简单方法是(考虑到您有 gensim):

python -m gensim.scripts.glove2word2vec –input <GloVe vector file> –output <Word2vec vector file>

这会将手套矢量文件转换为 w2v 格式。您也可以手动完成 - 只需在 GloVe 文件中添加额外的行,在文件顶部包含矢量总数及其维度。它看起来有点像:

180000 300
<The rest of your file>

之后,您只需将文件加载到 gensim 中,一切都像普通的 w2v 模型一样工作。