K-Means 的 Hadoop 分布式版本?

Hadoop distributed version of K-Means?

想知道是否有 Hadoop 分布式 K-Means 版本的开源实现?要求Hadoop,因为数据很大,不能装在一个盒子里。

提前致谢, 林

是的,有,Mahaout 有几个 k-means 实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html

您可以使用 spark for this. Spark implements KMeans。 Spark 使用 RDD(弹性分布式数据集)。您的数据分布在您的集群上,每个节点处理最接近的数据。

Spark 的性能可以比 Mahout 更好,因为一些中间过程没有写在 HDFS 上。