NLP - 词表示
NLP - Word Representations
我正在研究一种类似于 Word2Vec and GloVe 的词表示算法。有人要求我让它更动态,这样新词就可以添加到词汇表中,新文档可以提交到即使在创建了表示(向量)之后,该程序也是如此。
问题是,我怎么知道我的代表是否有效?我怎么知道它是否真的抓住了每个词的意思?如何将我的表示与其他现有矢量 space 模型进行比较?
截至目前,我正在进行以下测试来检查我的词向量的质量:
距离测试:
向量之间的余弦距离是否反映了单词之间的语义距离?
类比测试:
表示可以用来解决像"King is to queen what man is to ________ "这样的问题吗,(答案应该是女人)
挑出奇数:
是否可以使用向量来挑选给定单词列表中的奇数单词。如果输入是{"cat","dog","phone"},输出应该是"phone"?
我应该做哪些其他测试来检查载体的质量?词向量还可以完成哪些其他任务?矢量 space 模型有基准吗?
你的测试听起来很合理——它们是研究论文中用来测试词嵌入质量的常用评估任务。
此外,网站 www.wordvectors.org can give you a good idea of how your vectors measure up. It allows you to upload your embeddings, generates plots, gives correlations with word pair similarity rankings, and compares your embeddings with pre-trained vectors from previous research. You can find a more detailed description in the accompanying paper。
我正在研究一种类似于 Word2Vec and GloVe 的词表示算法。有人要求我让它更动态,这样新词就可以添加到词汇表中,新文档可以提交到即使在创建了表示(向量)之后,该程序也是如此。
问题是,我怎么知道我的代表是否有效?我怎么知道它是否真的抓住了每个词的意思?如何将我的表示与其他现有矢量 space 模型进行比较?
截至目前,我正在进行以下测试来检查我的词向量的质量:
距离测试:
向量之间的余弦距离是否反映了单词之间的语义距离?
类比测试:
表示可以用来解决像"King is to queen what man is to ________ "这样的问题吗,(答案应该是女人)
挑出奇数:
是否可以使用向量来挑选给定单词列表中的奇数单词。如果输入是{"cat","dog","phone"},输出应该是"phone"?
我应该做哪些其他测试来检查载体的质量?词向量还可以完成哪些其他任务?矢量 space 模型有基准吗?
你的测试听起来很合理——它们是研究论文中用来测试词嵌入质量的常用评估任务。
此外,网站 www.wordvectors.org can give you a good idea of how your vectors measure up. It allows you to upload your embeddings, generates plots, gives correlations with word pair similarity rankings, and compares your embeddings with pre-trained vectors from previous research. You can find a more detailed description in the accompanying paper。