线性 SVM 与非线性 SVM 高维数据

Linear SVM vs Nonlinear SVM high dimensional data

我正在做一个项目,我使用 Spark Mllib Linear SVM 对一些数据进行分类(l2 正则化)。我有 200 个正面观察和 150 个(生成的)负面观察,每个都有 744 个特征,代表房子不同区域的人 activity 的水平。

我进行了 运行 一些测试,"areaUnderROC" 指标为 0.991,该模型似乎非常适合对我提供给它的数据进行分类。 我做了一些研究,发现线性 SVM 在高维数据中表现很好,但问题是我不明白线性的东西怎么能很好地划分我的数据。

我认为是二维的,也许这就是问题所在,但看看底部的图像,我 90% 确定我的数据看起来更像是一个非线性问题

所以我考试成绩好是正常的吗?难道我做错了什么?我应该改变方法吗?

我想你的问题是关于 'why linear SVM could classfy my hight Dimensions data well even the data should be non-linear'
一些数据集在低维度上看起来像非线性,就像右边的示例图像一样,但是很难说数据集在高维度上绝对是非线性的,因为 nD 非线性可能在 (n+ 1)D space.So 我不知道为什么你 90% 确定你的数据集是非线性的,即使它是高维数据集。
最后,我认为你在测试样本上有一个好的测试结果是正常的,因为它表明你的数据集在高维度上只是线性或接近线性或者它不起作用所以well.Maybe交叉验证可以帮助您确认您的方法是否合适。