如何使用条带技术使用分布式 MinHash 对集合 (users/documents) 进行聚类？

How to cluster sets (users/documents) with distributed MinHash using the banding technique?

我对使用 MinHash 和条带技术聚类集的方式有很大的疑问。

我假设阅读的每个人都对 MinHash 有很好的了解，所以我不会定义我使用的大部分术语。

我的目标是使用 MinHash 根据签名的相似性对用户进行聚类。在本地、非带状设置中，这将是微不足道的：如果他们的签名哈希相同，则他们进入同一个集群。

如果我们将签名分割成band并独立处理它们，我可以像我之前说的那样对待一个band，并为每个band生成一组簇。我的问题是：我应该如何聚合这些集群？如果它们至少有一个共同点，就合并它们？或者我应该做些不同的事情吗？

谢谢

MinHash 并不是真正意义上的独立聚类算法。它是 近似重复检测 .

的候选过滤器

在查找类似文档时，您计算最小哈希值以检索候选文档。然后您仍然需要检查这些候选人 - 他们可能是误报！签名一致的越多，真正匹配的可能性就越大。

因此，如果您再次考虑近似重复的情况：如果 a 是 b 的近似重复且 b 是 c 的近似重复，那么 a 也应该是 c 的近似重复。如果成立，您可以将所有这些匹配项（经过验证）放在一起。如果它不考虑合并（或不合并）候选人的层次聚类策略。