Weka 的不同测试选项是什么意思?

What do Weka's different test options mean?

所以我最近开始使用 Weka,并且在使用例如 J48 构建树时有几个测试选项。以下是选项,包括我对它们的理解:

  1. 使用训练集 - 我只知道它非常乐观,不一定有用。甚至 Weka's documentation at 2.1.5 也不是太具体。
  2. 提供的测试集 - 不言自明,你提供了一个测试集。
  3. 交叉验证 - 我通过阅读 this 简短示例理解了它。
  4. Percentage Split - 我假设这意味着将数据集按一定比例分成两组,一组用于训练,一组用于测试。

我想知道的是训练集(第一个选项)到底是什么以及它做了什么。它从哪里获得这个训练集以及它究竟测试了哪些数据?还有,如果你能纠正我对其余部分的理解,如果它是错误的。

第一个选项仅表示 "use all data loaded to run this algorithm"。你选这个

  • 尝试一下,
  • 首先查看输出中的结果部分,
  • 检查 performance/run 持续时间,
  • 检查 Weka 的输出是否与不同软件(例如 R 或 Matlab)的相同算法的实现相匹配。
  • ...

选项一是:

测试集=训练集

得到的分数当然容易过拟合,这就是为什么它 "highly optimistic and not necessarily useful"。