真实和分类特征的 libsvm 缩放

libsvm scaling of features real and categorical

我想知道在转换为单热编码(例如 0 0 0 1 0 0 变量的 6 个可能值)后,分类特征是否应该使用 svm-scale 函数沿着真实特征进行缩放。我认为 libsvm 指南显然是这么说的。

此外,如果存在一些无差别的特征,例如随机噪声?我应该在训练前删除这些功能吗?我的猜测是这些会影响学习,因为支持向量机本质上是计算数据点之间的欧氏距离,这些数据点表示为特征向量。我不太关心 运行 时间,因为特征数量很少。请提及支持向量机的标准特征选择算法实现。欢迎任何建议。

谢谢。

你有几个问题:

1) 0-1 个特征是否应该缩放?
2)噪声特征的影响是什么?
3) 噪声特征是否应该去除?
4)如果是这样,怎么样?

(1) 和 (3) 的一般答案是你应该使用 cross-validation,(或 holdout 验证集)尝试两种方法,并保持在 [=22= 上得分更高的那个].如果我要猜的话,我会说缩放 0-1 特征可能并不重要,因为 SVM 不是 that scale dependent as long as long as all the features是 O(1),它们是。适度数量的噪声特征也可能没问题。至于 (2),您认为噪声特征通常会稍微降低 SVM 性能是正确的。特征选择是一个很大的话题。在 scikit-learn user guide.

中有一个不错的介绍