如何检查词嵌入的性能

Question

我使用了 gensim Word2Vec 模型并将其应用到我的文档列表中。好吧，嵌入这个词正在创建中。我想知道 Word2Vec 在我的文档列表中是否表现良好。有什么指标可以衡量吗？我如何理解 Word2Vec 在我的文档语料库上是否真的运行良好，或者我应该尝试一些不同的嵌入？下面是我从 gensim 使用的代码。

import gensim
model = gensim.models.Word2Vec(documents , size=150, window=10, min_count=2, sg=1, workers=10)

Answer 1

"performing well" 没有通用的定义。这取决于您的 end-goals。

为什么要创建word-vectors？您希望他们提供什么价值？

有了这些问题的答案，您可以首先以非正式的方式查看结果，ad-hoc 时尚：看一些单词 nearest-neighbors（wordvecs.most_similar(query_word) 的结果）看看它们对您是否有意义，是否满足您的需求 problem-domain。

但要真正测试您的模型是否随着时间的推移做得更好，随着您改进数据或 model-parameters，您应该形成一些与您的 end-goal 相匹配的可重复的定量测试。（例如：你是否需要某些词对比第三个词更接近彼此？你是否使用 word-vectors 作为某些其他分类的输入或 info-retrieval 具有一些已知的过程，理想的结果？）

运行这些测试，对模型进行评分，然后将一个模型的分数与另一个模型的分数进行比较。

如何检查词嵌入的性能

How to check the performance of word embedding

python

word2vec

word-embedding