分类会产生奇怪的结果

Classifying delivers strange results

我遇到了分类问题。我有一组来自 19 人实验的生理数据(脉搏、皮肤电阻等,4 个特征)。在实验中,他们必须做一系列影响他们的事情。这就是实验的每个阶段将数据分成 10 类 的原因。现在我有两个数据集:一个包含所有放在一起的数据(从第一个人开始到最后一个结束),另一个分为包含 17 人的训练集和包含 2 人的测试集。现在我使用 Wekas 随机森林对数据进行分类,令人惊讶的是,在使用第一个数据集的 10 折交叉验证中,我得到了几乎完美的结果(这对我来说似乎很奇怪,我的意思是 10 类 而且只有 4 个特征?),但是当我使用单独的训练集和测试集时,我得到的结果非常糟糕。我还尝试使用其他 2 个人来划分数据作为测试集,结果同样糟糕。问题是:我错过了什么?

这是一个高方差问题,这意味着您的分类器能够完美地拟合训练数据,但不能很好地泛化。阅读 bias\variance 权衡并思考改进泛化的方法(可能切换到另一个泛化更好的分类器,或者通过减少随机森林中的树木数量等)。

也可能是您的训练数据太少了。因为你的分类器能够完美地适应训练数据(因为有少量的例子可以很容易地相互区分)但是绝对不能概括只是因为你没有提供足够的数据来执行任何问题的合理抽样 space.

只有 19 个人支持第二个假设 - 19 条记录对于 ML 算法来说还不够。