k-means 算法陷入局部最小值意味着什么?

What does it mean for the k-means algorithm to be trapped in a local minimum?

我正在学习 k 均值聚类算法。我读到过该算法的一个特点是它可能会陷入局部最小值,并且增加找到全局最优值的机会的一种简单方法是使用不同的随机种子重新启动算法。我了解该算法的基本概念,它在第一次迭代中初始化任意 centroids/means,然后将数据点分配给这些集群。然后在所有点分配后更新质心,并再次重新分配点。算法继续迭代,直到簇不再发生变化。

但是,我无法准确理解该算法上下文中局部最小值的含义。任何见解表示赞赏。

k-means算法是一种迭代方法,它收敛到某种配置,使得点到中心的分配不再改变,并保持在该配置中。事实上,有许多这样的“吸引子”配置,每个配置都对应于某个“拟合误差”值(点到中心的总距离)。

如果将拟合误差绘制为配置(中心位置)的函数,此函数将有许多局部最小值,您需要很大的运气才能落入全局最小值。

下图形象地说明了问题:

左图显示了您想要最小化的“拟合误差”。您想要达到的目标全局最小值是右图中的红点。但是因为每个蓝色点也是局部最小值,所以算法很可能会卡在这些点之一。