计算 R 中 word2vec 模型的余弦相似度

Calculate Cosine Similarity for a word2vec model in R

我在 R 中使用包“word2vec”模型时遇到了一个大问题。我想弄清楚哪些词是“不确定性”和“经济”最接近的同义词,就像 Azqueta-Gavaldon (2020) 的论文:“欧元区的经济政策不确定性:一种无监督的机器学习方法”。所以我做了 word2vec word2vec 包的功能来创建我自己的 word2vec 模型。使用函数 predict (object, ...) 我可以创建一个 table 它向我显示最接近我考虑的 words.The 问题的词是该函数的相似性定义为 (sqrt (sum(x . y) / ncol(x))) 这不是余弦相似度。 我知道我可以使用函数 cosine(x,y)。这个函数只是用来计算两个向量之间的余弦相似度,不能像我上面描述的预测函数那样输出。

有谁知道如何确定我的 Word2Vec 模型中每个词与另一个词的余弦相似度,并根据这些值输出与给定词最相似的词?

这真的对我有很大帮助,我已经很感激你的回答了。

亲切的问候, 汤姆

以下 github 代码解释了如何在 R 中的 Word2Vec 模型中使用余弦相似度: https://gist.github.com/adamlauretig/d15381b562881563e97e1e922ee37920

您可以在 R 中的每个矩阵中使用此函数,因此对于 R 中内置的每个 Word2Vec 模型。

亲切的问候, 汤姆