SVM训练数据的选择

Selection of training data for SVM

我知道这里已经提出过几次类似的问题,但我还有一点不太清楚。

我有 1098 张图像要分类。作为一般规则(据我所读),数据的拆分是

80/20 - Train/Test

80% 的训练数据

80/20 或 90/10 用于 20 倍或 10 倍交叉验证。

现在我面临的问题是数据的原始 80/20 拆分是随机完成的。因此,如果我重复随机抽样数据(进入 train/test 个案例)一百次并执行交叉验证,我发现最佳 SVM 参数正在改变。

基本上,我对应该如何拆分数据感到困惑,当我随机拆分数据时,我无法在每个样本上获得可重复的结果。我该怎么办?

我正在使用带有 RBF 内核的 libsvm。对数据采样 30 次的示例给出了以下内容:

文本格式不正确,因此我将 link 附加到包含该信息的文本文件。 括号中的值为[C gamma].

http://goo.gl/jd0DNT

如何选择最佳训练集以及如何选择最佳参数...是否有一种智能的方法?

对于类似的随机函数再现性问题的一般解决方案是

  • 执行一次随机函数并永久保留结果
  • 使用相同的种子使随机函数本身可重现

无论如何,我认为您在第一次拆分时试图超越交叉验证。