如何检查词嵌入的性能

How to check the performance of word embedding

我使用了 gensim Word2Vec 模型并将其应用到我的文档列表中。好吧,嵌入这个词正在创建中。我想知道 Word2Vec 在我的文档列表中是否表现良好。有什么指标可以衡量吗?我如何理解 Word2Vec 在我的文档语料库上是否真的运行良好,或者我应该尝试一些不同的嵌入? 下面是我从 gensim 使用的代码。

import gensim
model = gensim.models.Word2Vec(documents , size=150, window=10, min_count=2, sg=1, workers=10)

"performing well" 没有通用的定义。这取决于您的 end-goals。

为什么要创建word-vectors?您希望他们提供什么价值?

有了这些问题的答案,您可以首先以非正式的方式查看结果,ad-hoc 时尚:看一些单词 nearest-neighbors(wordvecs.most_similar(query_word) 的结果)看看它们对您是否有意义,是否满足您的需求 problem-domain。

但要真正测试您的模型是否随着时间的推移做得更好,随着您改进数据或 model-parameters,您应该形成一些与您的 end-goal 相匹配的可重复的定量测试。 (例如:你是否需要某些词对比第三个词更接近彼此?你是否使用 word-vectors 作为某些其他分类的输入或 info-retrieval 具有一些已知的过程,理想的结果?)

运行 这些测试,对模型进行评分,然后将一个模型的分数与另一个模型的分数进行比较。