Scikit Learn Support Vector Classifier 是硬边距还是软边距
Is Scikit Learn's Support Vector Classifier hard margin or soft margin
我想知道下面来自 scikit learn 的支持向量分类器是硬边距还是软边距?
from sklearn import svm
clf = svm.SVC()
我认为默认情况下它是硬边距,但也有软边距的规定。引用文档:
But problems are usually not always perfectly separable with a hyperplane, so we allow some samples to be at a distance from their correct margin boundary. The penalty term C controls the strengh of this penalty, and as a result, acts as an inverse regularization parameter (see note below).
由于C默认设置为1,所以我们可以说默认的SVM实现是hard margin(但我们可以通过改变C
的值来改变它)
虽然很晚了,但我不同意所提供的答案,原因如下:
- 硬边距分类 仅在数据线性可分时才有效(请注意
SVC()
的默认选项是 'rbf'
内核而不是线性内核);
- 硬间隔分类器的原始优化问题具有以下形式:
- 另一方面,正如您从 guide 中看到的那样,scikit-learn 中考虑的原始优化问题如下:
这个公式 - 在文献中确定了 软间隔分类器 的优化问题 - 使其也适用于非线性可分离数据集并引入:
zeta_i
,衡量实例i被允许违反margin的程度(functional margin在从第一个公式到第二个公式的传递过程中可以小于1);
- 超参数
C
,这是对 objective 函数施加的“惩罚”的一部分,以允许实例的功能余量小于 1。
最终,正如您在 sklearn 中看到的那样 doc, hyperparameter C
must be strictly positive, which enforces the idea that SVC()
does provide soft margin classification. 是另一个 SO 参考。
我想知道下面来自 scikit learn 的支持向量分类器是硬边距还是软边距?
from sklearn import svm
clf = svm.SVC()
我认为默认情况下它是硬边距,但也有软边距的规定。引用文档:
But problems are usually not always perfectly separable with a hyperplane, so we allow some samples to be at a distance from their correct margin boundary. The penalty term C controls the strengh of this penalty, and as a result, acts as an inverse regularization parameter (see note below).
由于C默认设置为1,所以我们可以说默认的SVM实现是hard margin(但我们可以通过改变C
的值来改变它)
虽然很晚了,但我不同意所提供的答案,原因如下:
- 硬边距分类 仅在数据线性可分时才有效(请注意
SVC()
的默认选项是'rbf'
内核而不是线性内核); - 硬间隔分类器的原始优化问题具有以下形式:
- 另一方面,正如您从 guide 中看到的那样,scikit-learn 中考虑的原始优化问题如下:
这个公式 - 在文献中确定了 软间隔分类器 的优化问题 - 使其也适用于非线性可分离数据集并引入:
zeta_i
,衡量实例i被允许违反margin的程度(functional margin在从第一个公式到第二个公式的传递过程中可以小于1);- 超参数
C
,这是对 objective 函数施加的“惩罚”的一部分,以允许实例的功能余量小于 1。
最终,正如您在 sklearn 中看到的那样 doc, hyperparameter C
must be strictly positive, which enforces the idea that SVC()
does provide soft margin classification.