支持向量机内核类型

Support Vector Machine kernel types

支持向量机中使用的流行核函数是线性、径向基函数和多项式。有人可以用简单的方式解释这个内核函数是什么吗:) 因为我是这个领域的新手，所以我不清楚这些内核类型的重要性。

让我们从头说起。支持向量机是一个线性模型，它总是寻找一个超平面来将一个 class 与另一个分开。我将专注于二维情况，因为它更容易理解，并且可以形象化以提供一些直觉，但请记住，这对于更高维度也是正确的（只是线变为平面，抛物线变为抛物面等）。

内核简介

内核所做的是改变线性公式中点积的定义。这是什么意思？ SVM 使用点积，有限维定义为 <x,y> = x^Ty = SUM_{i=1}^d x_i y_i。这或多或少捕获了两个向量之间的相似性（也是投影的几何运算，它也与向量之间的角度密切相关）。 kernel trick 所做的是将 SVM 数学中每个出现的 <x,y> 更改为 K(x,y) 表示 "K is dot product in SOME space"，并且每个内核都存在一个映射 f_K，使得 K(x,y)=<f_K(x), f_K(y)> 诀窍是，您不直接使用 f_K，而只是计算它们的点积，这会为您节省大量时间（有时 - 无限数量，因为 f_K(x) 可能有无限数量维度）。好的，那对我们来说意味着什么？我们在 x 的 space 中仍然是 "live"，而不是 f_K(x)。结果非常好——如果你在 f_K 的 space 中构建一个超平面，分离你的数据，然后回头看看 x 的 space （所以你可能会说你将超平面投影回来f_K^{-1}) 你得到了非线性决策边界！边界的类型取决于 f_K，f_K 取决于 K，因此，K 的选择将（除其他外）影响边界的形状。

线性内核

这里我们实际上没有任何内核，你只有 "normal" 点积，因此在 2d 中你的决策边界总是直线。

如您所见，我们可以正确分离大部分点，但由于 "stiffness" 我们的假设 - 我们永远无法捕获所有点。

多边形

在这里，我们的内核在一定程度上引入了我们特征的 space 多项式组合。因此，我们可以稍微使用 "bended" 决策边界，例如 degree=2

的抛物线

如您所见 - 我们分离了更多点！好的，我们可以通过使用高阶多项式来获得所有这些吗？让我们试试 4！

不幸的是没有。为什么？因为多项式组合不够灵活。它不会 "bend" 我们的 space 难以捕捉到我们想要的东西（也许它不是那么糟糕？我的意思是 - 看看这一点，它看起来像一个异常值！）。

RBF 内核

在这里，我们导出的 space 是 space 高斯分布...每个点都成为正态分布的概率密度函数（按比例缩放）。在这样的 space 中，点积是积分（因为我们确实有无限多的维度！）因此，我们具有极大的灵活性，事实上，使用这样的核你可以分离所有东西（但这很好吗？）

粗略比较

好的，那么主要区别是什么？我现在将根据一些措施对这三个内核进行排序

SVM学习时间：linear < poly < rbf
适合任何数据的能力：linear < poly < rbf
过度拟合的风险：linear < poly < rbf
欠拟合风险：rbf < poly < linear
超参数数量：linear (0) < rbf (2) < poly (3)
如何"local"是特定内核：linear < poly < rbf

那么选择哪一个呢？这取决于。 Vapnik 和 Cortes（SVM 的发明者）很好地支持了这样的想法，即您始终应该尝试拟合 可能的最简单模型 并且只有当它不适合时 - 才可以使用更复杂的模型。所以你通常应该从线性模型开始（在 SVM 的情况下是内核），如果它得到非常糟糕的分数 - 切换到 poly/rbf（但是请记住，由于超参数的数量，使用它们要困难得多）

所有图像都是使用 libSVM 网站上的一个漂亮的小程序完成的 - 试一试，没有什么比大量图像和交互更能给你直觉了:-) https://www.csie.ntu.edu.tw/~cjlin/libsvm/