我怎样才能聚类大约 500000 个字符串

How can I cluster about 500000 strings

我有大约 500000 个字符串,我想将它们分组。我可以使用网络门户或网络服务来做到这一点吗?

字符串是唯一的。 我需要根据相似性将它们分组。

还有其他方法吗?

如果您打算将一系列字符串(单词)聚类到相似组中,您需要判断是否需要查找相似编辑 (Levenshtein) 距离出现在同一聚类中的单词。例如你会说 "algorithm" 和 "alogrithm" 应该有很高的机会出现在同一个集群中。

最先进的建议使用像

这样的图聚类算法