如何使用 k 均值聚类对 MNIST 数据集进行分类?

How to classify MNIST data set using k-means clustering?

我正在对 MNIST 数据集应用 K-Means 聚类。我怎样才能根据这个预测我的测试集的值?

好吧,k-means 是一种无监督技术,因此从技术上讲,您不会将其用于 "classify"——即,k-means 模型不提供带标签的数据(如果是的话)它不使用 class 标签)等等,因此它不会 return 预测作为 class 标签(例如,“1”)

所以要使用 k-means 预测给定数据实例中编码的单个数字:

  • 你的 k-means 模型由一组 centroids 组成(我假设 您选择了 26 个质心来对应基数 10

  • 中的数字 0 - 9
  • 每个质心代表一个簇的几何中心——一个 每个数字的集群

  • 计算成对欧几里得距离(向量范数) 您的未知数据点和 k-means 模型中的每个质心( 最后一次迭代的质心值,显然)

  • 其质心距离最短的集群 未知数据点是未知数据指向的集群 属于