如何使用 AvgSimC 和 MaxSimC 评估词嵌入质量

How to evaluate word embeddings quality using AvgSimC and MaxSimC

我在做一个主题词嵌入的项目,我需要根据一个词的多义来评估词嵌入的质量。我在一些使用 AvgSimC 和 MaxSimC 的研究论文中看到过。根据我的理解,使用这两种方法通过考虑上下文词来预测词义。不幸的是,我没有得到这些牵引方法的明确实现概念和源代码。

使用 SCWS 数据集实现 AvgSimC 和 MaxSimC 的源代码(python 或 c)以及任何类型的 documentation/tutorial 或任何参考资料将受到更多赞赏。

感谢您抽出宝贵时间。

对于python

中的两个词向量word1和word2
   def AvgSimC(word1, word2):
       cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
       return np.mean(cosine_similarity)

   def MaxSimC(word1, word2):
       cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
       return np.max(cosine_similarity)