给定单词相似性推断句子相似性

Extrapolate Sentence Similarity Given Word Similarities

假设我有两个句子中每对单词的单词相似度分数,根据这些分数确定整体句子相似度的合适方法是什么?

单词得分是使用代表每个单词的向量的余弦相似度计算得出的。

既然有了单字分,那么把单字分相加除以两个句子的总字数就得到两个句子的分是不是太幼稚了?

我读过进一步构造向量来表示句子,使用单词分数,然后再次使用余弦相似度来比较句子。但是我不熟悉如何从现有的单词分数中构建句向量。我也不知道与上述天真的方法相比有什么权衡,至少,我可以很容易地理解。 :).

非常感谢任何见解。

谢谢。

我最后做的是取每组向量的平均值,然后对这两个平均值应用余弦相似度,得到句子的分数。

我不确定这种方法在数学上的合理性如何,但我在其他地方看到过它(比如 python 的 gensim)。

单词最好用contextual word embeddings(向量表示)

这是一种通过成对单词相似度计算句子相似度的方法:BERTScore

你可以检查数学here