如何从具有层次聚类的样本中获取聚类？

How do you get a cluster from a sample with hierarchical clustering?

为了找到未见过样本所属的簇，

k-means 存储每个集群的质心。简单地与最近的质心聚类就是新样本所属的聚类。

那么层次聚类呢？你如何找到新样本所属的集群？

类似地，在联合聚类的情况下，我们仅在聚类后获得训练数据的行和列（分别）的聚类 ID。

换句话说，给定一个具有m个特征（列）的样本，我们需要以某种方式找到每个特征所属的聚类。谁能向我解释一下这在实践中是如何实现的？如果我的假设不正确，你能指导我正确的方向吗？

谢谢

你没有。

标记新数据点不是聚类的目的。 K-means 有点例外，因为很明显要使用什么规则（最近的中心），但即使对于 k-means，以这种方式标记点的结果也不一定与运行 kmeans 相同(X u {x}) 在旧数据上加上新点。所以不一致。

对于层次聚类等其他算法，这种效果更差。例如，单个新数据点可能会导致两个集群合并！

您可以做的 - 似乎是常见的解决方案 - 是使用聚类输出来训练分类器。然后可以使用该分类器来预测集群标签。一个缓慢但常见的选择是 (k=1-) 最近邻分类器。