如何使用条带技术使用分布式 MinHash 对集合 (users/documents) 进行聚类?
How to cluster sets (users/documents) with distributed MinHash using the banding technique?
我对使用 MinHash 和条带技术聚类集的方式有很大的疑问。
我假设阅读的每个人都对 MinHash 有很好的了解,所以我不会定义我使用的大部分术语。
我的目标是使用 MinHash 根据签名的相似性对用户进行聚类。在本地、非带状设置中,这将是微不足道的:如果他们的签名哈希相同,则他们进入同一个集群。
如果我们将签名分割成band并独立处理它们,我可以像我之前说的那样对待一个band,并为每个band生成一组簇。我的问题是:我应该如何聚合这些集群?如果它们至少有一个共同点,就合并它们?或者我应该做些不同的事情吗?
谢谢
MinHash 并不是真正意义上的独立聚类算法。它是 近似重复检测 .
的候选过滤器
在查找类似文档时,您计算最小哈希值以检索候选文档。然后您仍然需要检查这些候选人 - 他们可能是误报!
签名一致的越多,真正匹配的可能性就越大。
因此,如果您再次考虑近似重复的情况:如果 a 是 b 的近似重复且 b 是 c 的近似重复,那么 a 也应该是 c 的近似重复。如果成立,您可以将所有这些匹配项(经过验证)放在一起。如果它不考虑合并(或不合并)候选人的层次聚类策略。
我对使用 MinHash 和条带技术聚类集的方式有很大的疑问。
我假设阅读的每个人都对 MinHash 有很好的了解,所以我不会定义我使用的大部分术语。
我的目标是使用 MinHash 根据签名的相似性对用户进行聚类。在本地、非带状设置中,这将是微不足道的:如果他们的签名哈希相同,则他们进入同一个集群。
如果我们将签名分割成band并独立处理它们,我可以像我之前说的那样对待一个band,并为每个band生成一组簇。我的问题是:我应该如何聚合这些集群?如果它们至少有一个共同点,就合并它们?或者我应该做些不同的事情吗?
谢谢
MinHash 并不是真正意义上的独立聚类算法。它是 近似重复检测 .
的候选过滤器在查找类似文档时,您计算最小哈希值以检索候选文档。然后您仍然需要检查这些候选人 - 他们可能是误报! 签名一致的越多,真正匹配的可能性就越大。
因此,如果您再次考虑近似重复的情况:如果 a 是 b 的近似重复且 b 是 c 的近似重复,那么 a 也应该是 c 的近似重复。如果成立,您可以将所有这些匹配项(经过验证)放在一起。如果它不考虑合并(或不合并)候选人的层次聚类策略。