聚类的重要性是什么?

What is the importance of clustering?

在无监督学习期间,我们进行聚类分析(如 K-Means)以将数据分类到多个聚类中。
但是这些聚类数据在实际场景中有什么用呢

我认为在聚类过程中我们正在丢失有关数据的信息。
是否有一些实际示例表明聚类可能是有益的?

信息丢失可能是故意的。以下是三个示例:

  • PCM 信号量化(Lloyd's k-means 出版物)。您知道传输了一定数量(比如 10)的不同信号,但存在失真。量化消除失真并重新提取原始的 10 个不同信号。 这里,你丢掉错误,保持信号。
  • 颜色量化(参见维基百科)。为了减少图像中的颜色数量,一种非常好的方法是使用 k-means(通常在 HSV 或 Lab space 中)。 k 是所需输出颜色的数量。 这里的信息丢失是有意的,为了更好地压缩图像。 k-means 尝试找到仅具有 k 种颜色的图像的最小二乘误差近似值。
  • 在时间序列中搜索图案时,您还可以使用 k-means 等量化方法将您的数据转换为符号表示。视觉词袋方法是深度学习之前最先进的图像识别方法,也使用了它。
  • 探索性数据挖掘(聚类——有人可能会争辩说上述用例不是数据挖掘/聚类;而是量化)。如果你有一个 一百万个点的数据集,你要调查哪些点?聚类方法尝试将数据分成组,这些组应该在内部更同质,而彼此之间更不同。然后,您不必查看每个对象,而只需查看每个集群的 一些 即可希望了解有关整个集群(以及您的整个数据集)的一些信息。像 k-means 这样的质心方法甚至可以为每个集群提供一个 "prototype",尽管在集群内的其他点上也有一个好主意。您可能还想进行离群值检测并查看一些 不寻常的 对象。这种情况介于 对代表性对象进行抽样 减少数据集大小 以变得更易于管理。与以上几点的主要区别在于,结果通常不会 "operationalized" 自动,而是因为探索性聚类结果太不可靠(因此需要多次迭代)需要手动分析。