我怎样才能聚类大约 500000 个字符串
How can I cluster about 500000 strings
我有大约 500000 个字符串,我想将它们分组。我可以使用网络门户或网络服务来做到这一点吗?
字符串是唯一的。
我需要根据相似性将它们分组。
还有其他方法吗?
如果您打算将一系列字符串(单词)聚类到相似组中,您需要判断是否需要查找相似编辑 (Levenshtein) 距离出现在同一聚类中的单词。例如你会说 "algorithm" 和 "alogrithm" 应该有很高的机会出现在同一个集群中。
最先进的建议使用像
这样的图聚类算法
- Louvain 聚类
- 受限邻域搜索聚类 (RNSC)
- Affinity Propgation Clustering (APC)
- 马尔可夫聚类算法
(MCL).
我有大约 500000 个字符串,我想将它们分组。我可以使用网络门户或网络服务来做到这一点吗?
字符串是唯一的。 我需要根据相似性将它们分组。
还有其他方法吗?
如果您打算将一系列字符串(单词)聚类到相似组中,您需要判断是否需要查找相似编辑 (Levenshtein) 距离出现在同一聚类中的单词。例如你会说 "algorithm" 和 "alogrithm" 应该有很高的机会出现在同一个集群中。
最先进的建议使用像
这样的图聚类算法- Louvain 聚类
- 受限邻域搜索聚类 (RNSC)
- Affinity Propgation Clustering (APC)
- 马尔可夫聚类算法 (MCL).