修复集群移动 PySpark

Fix cluster movement PySpark

我使用 from pyspark.ml.clustering import KMeans 库进行 KMeans 聚类。我想确保集群只移动 10 次并且不再 10 次。我应该为此使用哪个参数?对我来说,我觉得应该是maxIter=10,但不确定。哪一个是最好的? maxIter=10initSteps=10

initSteps与KMeans初始化步骤的次数有关。虽然 maxIter 是最大 no.of 次迭代,但它将 运行。出于您的目的,设置 initSteps=10 将无法确保 集群仅移动 10 次。我在 PySpark 中找不到示例,但是对于 Sklearn,您可以在 this example.

中看到 KMeans 初始化的效果