如何从具有层次聚类的样本中获取聚类?

How do you get a cluster from a sample with hierarchical clustering?

为了找到未见过样本所属的簇,

k-means 存储每个集群的质心。简单地与最近的质心聚类就是新样本所属的聚类。

那么层次聚类呢?你如何找到新样本所属的集群?

类似地,在联合聚类的情况下,我们仅在聚类后获得训练数据的行和列(分别)的聚类 ID。

换句话说,给定一个具有m个特征(列)的样本,我们需要以某种方式找到每个特征所属的聚类。 谁能向我解释一下这在实践中是如何实现的? 如果我的假设不正确,你能指导我正确的方向吗?

谢谢

你没有。

标记新数据点不是聚类的目的。 K-means 有点例外,因为很明显要使用什么规则(最近的中心),但即使对于 k-means,以这种方式标记点的结果也不一定与 运行 kmeans 相同(X u {x}) 在旧数据上加上新点。所以不一致。

对于层次聚类等其他算法,这种效果更差。例如,单个新数据点可能会导致两个集群合并!

您可以做的 - 似乎是常见的解决方案 - 是使用聚类输出来训练分类器。然后可以使用该分类器来预测集群标签。一个缓慢但常见的选择是 (k=1-) 最近邻分类器。