在大型句子数据集中找到最相似的句子

Find most similar sentence in a large dataset of sentences

我目前有一个包含大约一百万个句子的文本文件,每个句子占一行。 我正在尝试构建一个解决方案,我可以在该文本文件之外添加一个新句子,并让程序 return 成为文件中最相似的句子。

我找到了一些解决方案,其中 return 在现有 dataset.For 示例 中具有最高相似度的一对句子。但这不是我想要的。我希望能够将一个新句子与文本文件中的所有句子进行比较。

此外,我不确定我应该关注语义相似性还是余弦相似性。

我建议您阅读有关 Damerau–Levenshtein distance 的内容。 我也在寻找类似的解决方案并选择了这个算法。

有 Python 的实现: