单链层次聚类法切树
single- linkage hierarchical cluster method cutting the tree
我的数据集包含 3 个类别 {c1、c2 和 c3}。我正在使用单链接层次聚类方法(来自 matlab)对数据集进行聚类。我建立了自己的距离测量。下图显示了结果。请注意,层次聚类方法正确地聚类了数据; c1(黄色)的点彼此非常接近。同样,c2(绿色)和 c3(蓝色)。
从图中我们可以注意到,与 c2 和 c3 相比,c1 中的点之间的距离非常小。因此,例如,如果我决定在 8 处砍伐树,这将导致 c1、c2 和 c3 被分成 8 个簇;每个点都在不同的集群中。
我该如何克服这个问题;我需要更改聚类方法吗?或者在 17 处砍下树并再次对结果集群进行聚类?
有多种方法可以从树状图中提取聚类。您不需要进行单次切割(尽管 matlab 可能只提供这种选择)。像您一样选择区域也是合理的,在多个高度切割树状图也是如此。但并非每个工具都具备所有功能。
注意c3被一分为二,其中一半没有和c2很好的分开。
我的数据集包含 3 个类别 {c1、c2 和 c3}。我正在使用单链接层次聚类方法(来自 matlab)对数据集进行聚类。我建立了自己的距离测量。下图显示了结果。请注意,层次聚类方法正确地聚类了数据; c1(黄色)的点彼此非常接近。同样,c2(绿色)和 c3(蓝色)。
从图中我们可以注意到,与 c2 和 c3 相比,c1 中的点之间的距离非常小。因此,例如,如果我决定在 8 处砍伐树,这将导致 c1、c2 和 c3 被分成 8 个簇;每个点都在不同的集群中。
我该如何克服这个问题;我需要更改聚类方法吗?或者在 17 处砍下树并再次对结果集群进行聚类?
有多种方法可以从树状图中提取聚类。您不需要进行单次切割(尽管 matlab 可能只提供这种选择)。像您一样选择区域也是合理的,在多个高度切割树状图也是如此。但并非每个工具都具备所有功能。
注意c3被一分为二,其中一半没有和c2很好的分开。