如何使用 AvgSimC 和 MaxSimC 评估词嵌入质量
How to evaluate word embeddings quality using AvgSimC and MaxSimC
我在做一个主题词嵌入的项目,我需要根据一个词的多义来评估词嵌入的质量。我在一些使用 AvgSimC 和 MaxSimC 的研究论文中看到过。根据我的理解,使用这两种方法通过考虑上下文词来预测词义。不幸的是,我没有得到这些牵引方法的明确实现概念和源代码。
使用 SCWS 数据集实现 AvgSimC 和 MaxSimC 的源代码(python 或 c)以及任何类型的 documentation/tutorial 或任何参考资料将受到更多赞赏。
感谢您抽出宝贵时间。
对于python
中的两个词向量word1和word2
def AvgSimC(word1, word2):
cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
return np.mean(cosine_similarity)
def MaxSimC(word1, word2):
cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
return np.max(cosine_similarity)
我在做一个主题词嵌入的项目,我需要根据一个词的多义来评估词嵌入的质量。我在一些使用 AvgSimC 和 MaxSimC 的研究论文中看到过。根据我的理解,使用这两种方法通过考虑上下文词来预测词义。不幸的是,我没有得到这些牵引方法的明确实现概念和源代码。
使用 SCWS 数据集实现 AvgSimC 和 MaxSimC 的源代码(python 或 c)以及任何类型的 documentation/tutorial 或任何参考资料将受到更多赞赏。
感谢您抽出宝贵时间。
对于python
中的两个词向量word1和word2 def AvgSimC(word1, word2):
cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
return np.mean(cosine_similarity)
def MaxSimC(word1, word2):
cosine_similarity = 1 - spatial.distance.cosine(word1, word1)
return np.max(cosine_similarity)