如何使用 AvgSimC 和 MaxSimC 评估词嵌入质量

Question

我在做一个主题词嵌入的项目，我需要根据一个词的多义来评估词嵌入的质量。我在一些使用 AvgSimC 和 MaxSimC 的研究论文中看到过。根据我的理解，使用这两种方法通过考虑上下文词来预测词义。不幸的是，我没有得到这些牵引方法的明确实现概念和源代码。

使用 SCWS 数据集实现 AvgSimC 和 MaxSimC 的源代码（python 或 c）以及任何类型的 documentation/tutorial 或任何参考资料将受到更多赞赏。

感谢您抽出宝贵时间。

Answer 1

对于python

中的两个词向量word1和word2

   def AvgSimC(word1, word2):
       cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
       return np.mean(cosine_similarity)

   def MaxSimC(word1, word2):
       cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
       return np.max(cosine_similarity)

如何使用 AvgSimC 和 MaxSimC 评估词嵌入质量

How to evaluate word embeddings quality using AvgSimC and MaxSimC

python

similarity

topic-modeling

word-embedding