K均值性能

K-means performance

我有一个大数据集,每个样本都有一个从 0 到 8 的特定 class 数字。我使用了 sklearn python 包中的 K-means 算法。当我运行编码几次时,K-means的输出是不同的。例如,第246个样本在第一个运行中属于簇3,在第二个运行中属于簇0。我还附上了一张图片供您考虑。

我认为这是因为聚类中心的随机初始化,但我需要在几个 运行 中得到一个恒定的结果。我该如何解决?

簇数不是一个真实的数据,是一个个差分簇的随机数。 那就不是做稳定号了

要知道class的真实类型需要将已知的class和助记词联系起来

您的样本:

1 : 246 是 #3

2 : 246 是 #0

您需要给[246]取个名字