监督学习是分类的同义词,无监督学习是聚类的同义词吗?

Is supervised learning synonymous to classification and unsupervised learning synonymous to clustering?

我是机器学习的初学者,最近阅读了有关监督和非监督机器学习的内容。看起来监督学习是分类的同义词,无监督学习是聚类的同义词,是吗?

没有

监督学习是指您知道正确答案(目标)。根据它们的类型,它可能是 classification (categorical targets), regression (numerical targets) or learning to rank(顺序目标)(此列表绝不是完整的,可能还有其他类型我忘记或不知道)。

相反,在无监督学习环境中,我们不知道正确答案,我们会尝试推断,从数据中学习一些结构。无论是簇数还是低维近似(dimensionality reduction,实际上,人们可能会认为聚类是降维的极端一维情况)。同样,这可能离完整性还很远,但总体思路是关于隐藏结构,我们试图从数据中发现。

监督学习 是指您拥有标记的训练数据。换句话说,您有一个明确的目标来优化您的方法。

典型的(监督式)学习任务是分类和回归:学习预测分类(分类)、数值(回归)值或排名(学习排名)。

无监督学习 是一个奇怪的术语。因为大多数时候,这些方法不是“learning”任何东西。因为他们会从中学到什么?您没有训练数据?

有很多 非监督方法 不适合 "learning" 范式。这包括降维方法,例如 PCA(它早于任何 "machine learning" - PCA 于 1901 年提出,远早于计算机!)。其中许多只是数据驱动的统计数据(与参数化统计数据相反)。这包括大多数聚类分析方法,离群值检测,...为了理解这些,最好跳出 "learning" 思维模式。许多人难以理解这些方法,因为他们总是以学习中常见的 "minimize objective function f" 思维方式思考。

考虑例如 DBSCAN。最流行的聚类算法之一。它不太适合学习范式。它可以很好地解释为图论结构:(密度-)连接组件。但它没有优化任何 objective 功能。它计算关系的传递闭包;但是没有函数最大化或最小化。

同样APRIORI寻找频繁项集;出现次数超过 minsupp 次的项目组合,其中 minsupp 是用户参数。这是一个非常简单的定义;但是当您拥有大量数据时,搜索 space 可能会非常大。蛮力方法无法在可接受的时间内完成。因此 APRIORI 使用巧妙的搜索策略来避免不必要的硬盘访问、计算和内存。但是没有"worse"或者"better"的学习结果。结果要么正确(完整)要么不正确 - 没有什么可以优化结果(仅在算法运行时)。

调用这些方法 "unsupervised learning" 是将它们压入一种它们不属于的思维模式。它们不是 "learning" 任何东西。既不优化函数,也不使用标签,也不使用任何类型的反馈。它们只是 SELECT 数据库中的一组特定对象:APRIORI selects 经常同时具有 1 的列; DBSCAN select 连接密度图中的组件。结果要么正确,要么不正确。

一些(但目前还不是全部)无监督方法可以形式化为优化问题。在这一点上,它们变得类似于流行的监督学习方法。例如,k-means 是一个最小化问题。 PCA 也是一个最小化问题 - 实际上与线性回归密切相关。但情况恰恰相反。许多机器学习任务被转化为优化问题;并且可以使用通用统计工具来解决,这些工具恰好在机器学习(例如线性规划)中非常流行。然后将所有 "learning" 部分包装到数据转换方式中,然后再将其送入优化器。在某些情况下,例如 PCA,找到了计算最优解的非迭代方法(1901 年)。所以在这些情况下,你根本不需要通常的优化锤子。