聚类的重要性是什么？

What is the importance of clustering?

在无监督学习期间，我们进行聚类分析（如 K-Means）以将数据分类到多个聚类中。
但是这些聚类数据在实际场景中有什么用呢

我认为在聚类过程中我们正在丢失有关数据的信息。
是否有一些实际示例表明聚类可能是有益的？

信息丢失可能是故意的。以下是三个示例：

PCM 信号量化（Lloyd's k-means 出版物）。您知道传输了一定数量（比如 10）的不同信号，但存在失真。量化消除失真并重新提取原始的 10 个不同信号。 这里，你丢掉错误，保持信号。
颜色量化（参见维基百科）。为了减少图像中的颜色数量，一种非常好的方法是使用 k-means（通常在 HSV 或 Lab space 中）。 k 是所需输出颜色的数量。 这里的信息丢失是有意的，为了更好地压缩图像。 k-means 尝试找到仅具有 k 种颜色的图像的最小二乘误差近似值。
在时间序列中搜索图案时，您还可以使用 k-means 等量化方法将您的数据转换为符号表示。视觉词袋方法是深度学习之前最先进的图像识别方法，也使用了它。
探索性数据挖掘（聚类——有人可能会争辩说上述用例不是数据挖掘/聚类；而是量化）。如果你有一个 一百万个点的数据集，你要调查哪些点？聚类方法尝试将数据分成组，这些组应该在内部更同质，而彼此之间更不同。然后，您不必查看每个对象，而只需查看每个集群的一些即可希望了解有关整个集群（以及您的整个数据集）的一些信息。像 k-means 这样的质心方法甚至可以为每个集群提供一个 "prototype"，尽管在集群内的其他点上也有一个好主意。您可能还想进行离群值检测并查看一些 不寻常的 对象。这种情况介于 对代表性对象进行抽样 和 减少数据集大小 以变得更易于管理。与以上几点的主要区别在于，结果通常不会 "operationalized" 自动，而是因为探索性聚类结果太不可靠（因此需要多次迭代）需要手动分析。

聚类的重要性是什么？

What is the importance of clustering?

cluster-analysis

k-means

unsupervised-learning