SVM训练数据的选择
Selection of training data for SVM
我知道这里已经提出过几次类似的问题,但我还有一点不太清楚。
我有 1098 张图像要分类。作为一般规则(据我所读),数据的拆分是
80/20 - Train/Test
80% 的训练数据
80/20 或 90/10 用于 20 倍或 10 倍交叉验证。
现在我面临的问题是数据的原始 80/20 拆分是随机完成的。因此,如果我重复随机抽样数据(进入 train/test 个案例)一百次并执行交叉验证,我发现最佳 SVM 参数正在改变。
基本上,我对应该如何拆分数据感到困惑,当我随机拆分数据时,我无法在每个样本上获得可重复的结果。我该怎么办?
我正在使用带有 RBF 内核的 libsvm。对数据采样 30 次的示例给出了以下内容:
文本格式不正确,因此我将 link 附加到包含该信息的文本文件。
括号中的值为[C gamma].
如何选择最佳训练集以及如何选择最佳参数...是否有一种智能的方法?
对于类似的随机函数再现性问题的一般解决方案是
- 执行一次随机函数并永久保留结果
- 使用相同的种子使随机函数本身可重现
无论如何,我认为您在第一次拆分时试图超越交叉验证。
我知道这里已经提出过几次类似的问题,但我还有一点不太清楚。
我有 1098 张图像要分类。作为一般规则(据我所读),数据的拆分是
80/20 - Train/Test
80% 的训练数据
80/20 或 90/10 用于 20 倍或 10 倍交叉验证。
现在我面临的问题是数据的原始 80/20 拆分是随机完成的。因此,如果我重复随机抽样数据(进入 train/test 个案例)一百次并执行交叉验证,我发现最佳 SVM 参数正在改变。
基本上,我对应该如何拆分数据感到困惑,当我随机拆分数据时,我无法在每个样本上获得可重复的结果。我该怎么办?
我正在使用带有 RBF 内核的 libsvm。对数据采样 30 次的示例给出了以下内容:
文本格式不正确,因此我将 link 附加到包含该信息的文本文件。 括号中的值为[C gamma].
如何选择最佳训练集以及如何选择最佳参数...是否有一种智能的方法?
对于类似的随机函数再现性问题的一般解决方案是
- 执行一次随机函数并永久保留结果
- 使用相同的种子使随机函数本身可重现
无论如何,我认为您在第一次拆分时试图超越交叉验证。