K均值性能

K-means performance

我有一个大数据集，每个样本都有一个从 0 到 8 的特定 class 数字。我使用了 sklearn python 包中的 K-means 算法。当我运行编码几次时，K-means的输出是不同的。例如，第246个样本在第一个运行中属于簇3，在第二个运行中属于簇0。我还附上了一张图片供您考虑。

我认为这是因为聚类中心的随机初始化，但我需要在几个运行中得到一个恒定的结果。我该如何解决？

簇数不是一个真实的数据，是一个个差分簇的随机数。那就不是做稳定号了

要知道class的真实类型需要将已知的class和助记词联系起来

您的样本：

1 : 246 是 #3

2 : 246 是 #0

您需要给[246]取个名字