找到最相似的样本集——找到给定大小的簇的函数

Find the most similar set of samples – A function that finds a cluster of a given size

我需要找到一个具有特定成员数量的集群。如果我有任意数量样本的距离数据,我想找到在凝聚聚类过程中三个位置聚集在一起的第一个发生率。否则,我想找到最相似的三个样本集。

hclust(dist_object, method = complete) 通过聚集为我提供了大小为 3 的簇,但必须通过 plot(hclust(dist_object, method = complete)).

视觉辨别

我可以创建一个函数来使用 hclust()$merge 输出来查找在具有三个成员的集群的集群聚集过程中的第一次出现,但我想知道这样的函数是否已经存在。

很可能使用聚类函数来解决这个问题不是正确的方法。

尝试从不同的角度解决这个问题。

例如,您可以查找到第二近邻的距离,然后选择该距离最小的对象。

这不一定会给你相同的结果,但应该快得多。

或者您自己实现层次聚类(不是很复杂),这样您就可以在第一个聚类达到所需大小时提前停止。