找到最相似的样本集——找到给定大小的簇的函数
Find the most similar set of samples – A function that finds a cluster of a given size
我需要找到一个具有特定成员数量的集群。如果我有任意数量样本的距离数据,我想找到在凝聚聚类过程中三个位置聚集在一起的第一个发生率。否则,我想找到最相似的三个样本集。
hclust(dist_object, method = complete)
通过聚集为我提供了大小为 3 的簇,但必须通过 plot(hclust(dist_object, method = complete))
.
视觉辨别
我可以创建一个函数来使用 hclust()$merge
输出来查找在具有三个成员的集群的集群聚集过程中的第一次出现,但我想知道这样的函数是否已经存在。
很可能使用聚类函数来解决这个问题不是正确的方法。
尝试从不同的角度解决这个问题。
例如,您可以查找到第二近邻的距离,然后选择该距离最小的对象。
这不一定会给你相同的结果,但应该快得多。
或者您自己实现层次聚类(不是很复杂),这样您就可以在第一个聚类达到所需大小时提前停止。
我需要找到一个具有特定成员数量的集群。如果我有任意数量样本的距离数据,我想找到在凝聚聚类过程中三个位置聚集在一起的第一个发生率。否则,我想找到最相似的三个样本集。
hclust(dist_object, method = complete)
通过聚集为我提供了大小为 3 的簇,但必须通过 plot(hclust(dist_object, method = complete))
.
我可以创建一个函数来使用 hclust()$merge
输出来查找在具有三个成员的集群的集群聚集过程中的第一次出现,但我想知道这样的函数是否已经存在。
很可能使用聚类函数来解决这个问题不是正确的方法。
尝试从不同的角度解决这个问题。
例如,您可以查找到第二近邻的距离,然后选择该距离最小的对象。
这不一定会给你相同的结果,但应该快得多。
或者您自己实现层次聚类(不是很复杂),这样您就可以在第一个聚类达到所需大小时提前停止。