确定多个文本块之间的相似性

Determining similarity between multiple text blocks

有没有一种方法可以确定给定多个文本实例的相似性,可能是百分比或其他可以显示给定文本彼此之间有多少共同点的方法。

T1 = abcabcabc
T2 = xyzabcxyzabcxyz
T3 = abcxyzabc

相似度类似于:

*abc*abc* or maybe 66%

我现在不能说得更具体。

如果提供代码,我更喜欢 python,但任何脚本语言或类似语言都很好,伪代码或参考问题解决网站。

有多种方法可以测量文本之间的距离。

查看 String metric 了解更多详情。

而且pypi上有Levenshtein distance的实现,我没试过。

wiki

还有一个

虽然 Levenshtein 距离计算将一个字符串转换为另一个字符串的最小步长,但您可以使用 step / len(string) 来获取两个字符串的相似度百分比。