word2vec评估结果解读

Interepretation of word2vec evaluation result

我使用自己的数据集创建了词嵌入 (Word2vec)。我使用 Gensim 模块来创建词嵌入。我想评估我的词嵌入。

我使用 Wordsim353 数据集来评估词嵌入。以下代码显示评估结果。

代码:

from gensim.test.utils import datapath

similarities = model.wv.evaluate_word_pairs(datapath('wordsim353.tsv'))

print(similarities)

结果:

((0.09410256722489568, 0.3086953732794174), SpearmanrResult(correlation=0.06101508426787973, pvalue=0.5097769955392246), 66.28895184135978)

如何解释结果?

请帮我解释一下结果。

我们评估词嵌入质量的方法是查看嵌入计算的相似度与人类判断分配的实际相似度的接近程度。

您的 Pearson 和 Spearmanr 的 pValue 过高,大约为 0.3 (70%) 和 0.5 (50%)。我建议你应该使用预训练词嵌入或收集更多数据集。

我努力用glove-twitter-25进行评估,得到了非常好的pvalue。

import gensim.downloader as api
from gensim.test.utils import datapath

m = api.load("glove-twitter-25")
m.evaluate_word_pairs(datapath("wordsim353.tsv"))

输出:

((0.36409317297819943, pvalue=2.969053896450154e-12), SpearmanrResult(correlation=0.36452011505868487, pvalue=2.788781738485533e-12), 2.26628895184136)

evaluate_word_pairs - Gensim module