SVM训练数据的选择

Selection of training data for SVM

我知道这里已经提出过几次类似的问题，但我还有一点不太清楚。

我有 1098 张图像要分类。作为一般规则（据我所读），数据的拆分是

80/20 - Train/Test

80% 的训练数据

80/20 或 90/10 用于 20 倍或 10 倍交叉验证。

现在我面临的问题是数据的原始 80/20 拆分是随机完成的。因此，如果我重复随机抽样数据（进入 train/test 个案例）一百次并执行交叉验证，我发现最佳 SVM 参数正在改变。

基本上，我对应该如何拆分数据感到困惑，当我随机拆分数据时，我无法在每个样本上获得可重复的结果。我该怎么办？

我正在使用带有 RBF 内核的 libsvm。对数据采样 30 次的示例给出了以下内容：

文本格式不正确，因此我将 link 附加到包含该信息的文本文件。括号中的值为[C gamma].

如何选择最佳训练集以及如何选择最佳参数...是否有一种智能的方法？

对于类似的随机函数再现性问题的一般解决方案是

无论如何，我认为您在第一次拆分时试图超越交叉验证。