是否有一种语义相似性方法在语义准确性方面优于 word2vec 方法?
Is there a semantic similarity method that outperforms word2vec approach for semantic accuracy?
我正在研究各种语义相似性方法,例如 word2vec、词移动距离 (WMD) 和 fastText。就语义相似性而言,fastText 并不比 Word2Vec 好。 WMD 和 Word2Vec 的结果几乎相似。
我想知道是否有一种替代方案在语义准确性方面优于 Word2Vec 模型?
我的用例:
为两个句子寻找词嵌入,然后使用余弦相似度来寻找它们的相似度。
是否有任何技术 "outperforms" 另一种在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。 (即使 "semantic similarity" 也可能有许多不同的方面,具体取决于应用程序。)
没有一种方法可以从 word2vec 词向量到 sentence/paragraph 向量。您可以添加原始向量。您可以对单位归一化向量进行平均。您可以根据其他词意义度量值执行某种其他类型的加权平均。所以你的隐含基线不清楚。
本质上,您必须针对您的数据和目标,通过您的自定义评估尝试各种方法和参数。
Word Mover's Distance 不会将每个文本缩减为单个向量,两个文本之间的成对计算可能很昂贵,但据报道它在某些语义上表现非常好- 相似任务。
FastText 本质上是 word2vec,具有一些额外的增强功能和新模式。某些关闭了额外功能的模式与 word2vec 完全相同,因此在某些 wordvecs-to-textvecs 方案中使用 FastText 词向量应该非常接近在同一方案中使用 word2vec 词向量。出于某些目的,某些模式可能有助于提高词向量的质量,但会降低词向量在 wordvecs-to-textvecs 方案中的有效性。某些模式可能会使词向量更好地用于 sum/average 组合方案——你应该特别关注 'classifier' 模式,它在分类任务中训练词向量在平均时表现良好。 (在某种程度上,您的数据可能有任何语义标签,这可能会使 word-vecs 更适合语义相似性任务。)
您可能还想查看 'Paragraph Vectors' 技术(在 gensim 中可用 Doc2Vec
),或其他 shorthand 名称 'fastSent' 的研究结果或 'sent2vec'。
我正在研究各种语义相似性方法,例如 word2vec、词移动距离 (WMD) 和 fastText。就语义相似性而言,fastText 并不比 Word2Vec 好。 WMD 和 Word2Vec 的结果几乎相似。
我想知道是否有一种替代方案在语义准确性方面优于 Word2Vec 模型?
我的用例: 为两个句子寻找词嵌入,然后使用余弦相似度来寻找它们的相似度。
是否有任何技术 "outperforms" 另一种在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。 (即使 "semantic similarity" 也可能有许多不同的方面,具体取决于应用程序。)
没有一种方法可以从 word2vec 词向量到 sentence/paragraph 向量。您可以添加原始向量。您可以对单位归一化向量进行平均。您可以根据其他词意义度量值执行某种其他类型的加权平均。所以你的隐含基线不清楚。
本质上,您必须针对您的数据和目标,通过您的自定义评估尝试各种方法和参数。
Word Mover's Distance 不会将每个文本缩减为单个向量,两个文本之间的成对计算可能很昂贵,但据报道它在某些语义上表现非常好- 相似任务。
FastText 本质上是 word2vec,具有一些额外的增强功能和新模式。某些关闭了额外功能的模式与 word2vec 完全相同,因此在某些 wordvecs-to-textvecs 方案中使用 FastText 词向量应该非常接近在同一方案中使用 word2vec 词向量。出于某些目的,某些模式可能有助于提高词向量的质量,但会降低词向量在 wordvecs-to-textvecs 方案中的有效性。某些模式可能会使词向量更好地用于 sum/average 组合方案——你应该特别关注 'classifier' 模式,它在分类任务中训练词向量在平均时表现良好。 (在某种程度上,您的数据可能有任何语义标签,这可能会使 word-vecs 更适合语义相似性任务。)
您可能还想查看 'Paragraph Vectors' 技术(在 gensim 中可用 Doc2Vec
),或其他 shorthand 名称 'fastSent' 的研究结果或 'sent2vec'。