监督学习是分类的同义词，无监督学习是聚类的同义词吗？

Is supervised learning synonymous to classification and unsupervised learning synonymous to clustering?

我是机器学习的初学者，最近阅读了有关监督和非监督机器学习的内容。看起来监督学习是分类的同义词，无监督学习是聚类的同义词，是吗？

没有

监督学习是指您知道正确答案（目标）。根据它们的类型，它可能是 classification (categorical targets), regression (numerical targets) or learning to rank（顺序目标）（此列表绝不是完整的，可能还有其他类型我忘记或不知道）。

相反，在无监督学习环境中，我们不知道正确答案，我们会尝试推断，从数据中学习一些结构。无论是簇数还是低维近似（dimensionality reduction，实际上，人们可能会认为聚类是降维的极端一维情况）。同样，这可能离完整性还很远，但总体思路是关于隐藏结构，我们试图从数据中发现。

监督学习 是指您拥有标记的训练数据。换句话说，您有一个明确的目标来优化您的方法。

典型的（监督式）学习任务是分类和回归：学习预测分类（分类）、数值（回归）值或排名（学习排名）。

无监督学习 是一个奇怪的术语。因为大多数时候，这些方法不是“learning”任何东西。因为他们会从中学到什么？您没有训练数据？

有很多 非监督方法 不适合 "learning" 范式。这包括降维方法，例如 PCA（它早于任何 "machine learning" - PCA 于 1901 年提出，远早于计算机！）。其中许多只是数据驱动的统计数据（与参数化统计数据相反）。这包括大多数聚类分析方法，离群值检测，...为了理解这些，最好跳出 "learning" 思维模式。许多人难以理解这些方法，因为他们总是以学习中常见的 "minimize objective function f" 思维方式思考。

考虑例如 DBSCAN。最流行的聚类算法之一。它不太适合学习范式。它可以很好地解释为图论结构：（密度-）连接组件。但它没有优化任何 objective 功能。它计算关系的传递闭包；但是没有函数最大化或最小化。

同样APRIORI寻找频繁项集；出现次数超过 minsupp 次的项目组合，其中 minsupp 是用户参数。这是一个非常简单的定义；但是当您拥有大量数据时，搜索 space 可能会非常大。蛮力方法无法在可接受的时间内完成。因此 APRIORI 使用巧妙的搜索策略来避免不必要的硬盘访问、计算和内存。但是没有"worse"或者"better"的学习结果。结果要么正确（完整）要么不正确 - 没有什么可以优化结果（仅在算法运行时）。

调用这些方法 "unsupervised learning" 是将它们压入一种它们不属于的思维模式。它们不是 "learning" 任何东西。既不优化函数，也不使用标签，也不使用任何类型的反馈。它们只是 SELECT 数据库中的一组特定对象：APRIORI selects 经常同时具有 1 的列； DBSCAN select 连接密度图中的组件。结果要么正确，要么不正确。

一些（但目前还不是全部）无监督方法可以形式化为优化问题。在这一点上，它们变得类似于流行的监督学习方法。例如，k-means 是一个最小化问题。 PCA 也是一个最小化问题 - 实际上与线性回归密切相关。但情况恰恰相反。许多机器学习任务被转化为优化问题；并且可以使用通用统计工具来解决，这些工具恰好在机器学习（例如线性规划）中非常流行。然后将所有 "learning" 部分包装到数据转换方式中，然后再将其送入优化器。在某些情况下，例如 PCA，找到了计算最优解的非迭代方法（1901 年）。所以在这些情况下，你根本不需要通常的优化锤子。

监督学习是分类的同义词，无监督学习是聚类的同义词吗？

Is supervised learning synonymous to classification and unsupervised learning synonymous to clustering?

classification

cluster-analysis

machine-learning

unsupervised-learning

supervised-learning