在大型句子数据集中找到最相似的句子
Find most similar sentence in a large dataset of sentences
我目前有一个包含大约一百万个句子的文本文件,每个句子占一行。
我正在尝试构建一个解决方案,我可以在该文本文件之外添加一个新句子,并让程序 return 成为文件中最相似的句子。
我找到了一些解决方案,其中 return 在现有 dataset.For 示例 中具有最高相似度的一对句子。但这不是我想要的。我希望能够将一个新句子与文本文件中的所有句子进行比较。
此外,我不确定我应该关注语义相似性还是余弦相似性。
我建议您阅读有关 Damerau–Levenshtein distance 的内容。
我也在寻找类似的解决方案并选择了这个算法。
有 Python 的实现:
我目前有一个包含大约一百万个句子的文本文件,每个句子占一行。 我正在尝试构建一个解决方案,我可以在该文本文件之外添加一个新句子,并让程序 return 成为文件中最相似的句子。
我找到了一些解决方案,其中 return 在现有 dataset.For 示例
此外,我不确定我应该关注语义相似性还是余弦相似性。
我建议您阅读有关 Damerau–Levenshtein distance 的内容。 我也在寻找类似的解决方案并选择了这个算法。
有 Python 的实现: