Weka 的不同测试选项是什么意思?
What do Weka's different test options mean?
所以我最近开始使用 Weka,并且在使用例如 J48 构建树时有几个测试选项。以下是选项,包括我对它们的理解:
- 使用训练集 - 我只知道它非常乐观,不一定有用。甚至 Weka's documentation at 2.1.5 也不是太具体。
- 提供的测试集 - 不言自明,你提供了一个测试集。
- 交叉验证 - 我通过阅读 this 简短示例理解了它。
- Percentage Split - 我假设这意味着将数据集按一定比例分成两组,一组用于训练,一组用于测试。
我想知道的是训练集(第一个选项)到底是什么以及它做了什么。它从哪里获得这个训练集以及它究竟测试了哪些数据?还有,如果你能纠正我对其余部分的理解,如果它是错误的。
第一个选项仅表示 "use all data loaded to run this algorithm"。你选这个
- 尝试一下,
- 首先查看输出中的结果部分,
- 检查 performance/run 持续时间,
- 检查 Weka 的输出是否与不同软件(例如 R 或 Matlab)的相同算法的实现相匹配。
- ...
选项一是:
测试集=训练集
得到的分数当然容易过拟合,这就是为什么它 "highly optimistic and not necessarily useful"。
所以我最近开始使用 Weka,并且在使用例如 J48 构建树时有几个测试选项。以下是选项,包括我对它们的理解:
- 使用训练集 - 我只知道它非常乐观,不一定有用。甚至 Weka's documentation at 2.1.5 也不是太具体。
- 提供的测试集 - 不言自明,你提供了一个测试集。
- 交叉验证 - 我通过阅读 this 简短示例理解了它。
- Percentage Split - 我假设这意味着将数据集按一定比例分成两组,一组用于训练,一组用于测试。
我想知道的是训练集(第一个选项)到底是什么以及它做了什么。它从哪里获得这个训练集以及它究竟测试了哪些数据?还有,如果你能纠正我对其余部分的理解,如果它是错误的。
第一个选项仅表示 "use all data loaded to run this algorithm"。你选这个
- 尝试一下,
- 首先查看输出中的结果部分,
- 检查 performance/run 持续时间,
- 检查 Weka 的输出是否与不同软件(例如 R 或 Matlab)的相同算法的实现相匹配。
- ...
选项一是:
测试集=训练集
得到的分数当然容易过拟合,这就是为什么它 "highly optimistic and not necessarily useful"。