如何解释 training/validation 学习曲线的结果?

How to interpret the results of a training/validation learning curve?

我正在使用 Scikit 包中的随机森林分类器,并绘制了 F1 分数与训练集大小的关系图。红色是训练集 F1 的分数,绿色是验证集的分数。这是我所期望的,但我想得到一些解释方面的建议。

I see that there is some significant variance, yet the validation curve appears to be converging. Should I assume that adding data would do little to affect the variance given the convergence or am I jumping to conclusion about the rate of convergence?

这似乎是对您的学习过程的真实调节,因此尤其是超参数的选择。因此,这并不意味着给定不同的超参数集会发生相同的效果。似乎只是给定当前设置 - 收敛率相对较小,因此达到 95% 可能需要大量数据。

Is the amount of variance here significant enough to warrant taking further actions that may increase the bias slightly? I realize this is a fairly domain-specific question but I wonder if there is any general guidelines for how much variance is worth a bit of bias tradeoff?

是的,总的来说 - 这些曲线至少不会拒绝选择更高的偏差。您显然过度适应训练集。另一方面,树木通常会这样做,因此在不更改模型的情况下可能很难增加偏差。我建议的一个选项是 Extremely Randomized Trees,它与随机森林几乎相同,但使用随机选择的阈值而不是完全优化。它们的偏差明显更大,应该使这些曲线彼此更接近一点。

显然不能保证 - 正如您所说,这是特定于数据的,但总体特征看起来很有希望(但可能需要更改模型)。