如何解释 training/validation 学习曲线的结果？

How to interpret the results of a training/validation learning curve?

我正在使用 Scikit 包中的随机森林分类器，并绘制了 F1 分数与训练集大小的关系图。红色是训练集 F1 的分数，绿色是验证集的分数。这是我所期望的，但我想得到一些解释方面的建议。

我发现存在一些显着差异，但验证曲线似乎正在收敛。我是否应该假设添加数据对给定收敛的方差几乎没有影响，还是我要对收敛速度下结论？
此处的差异量是否足以保证采取可能会稍微增加偏差的进一步行动？我意识到这是一个相当特定于领域的问题，但我想知道是否有任何一般准则可以说明多少方差值得进行一些偏差权衡？

I see that there is some significant variance, yet the validation curve appears to be converging. Should I assume that adding data would do little to affect the variance given the convergence or am I jumping to conclusion about the rate of convergence?

这似乎是对您的学习过程的真实调节，因此尤其是超参数的选择。因此，这并不意味着给定不同的超参数集会发生相同的效果。似乎只是给定当前设置 - 收敛率相对较小，因此达到 95% 可能需要大量数据。

Is the amount of variance here significant enough to warrant taking further actions that may increase the bias slightly? I realize this is a fairly domain-specific question but I wonder if there is any general guidelines for how much variance is worth a bit of bias tradeoff?

是的，总的来说 - 这些曲线至少不会拒绝选择更高的偏差。您显然过度适应训练集。另一方面，树木通常会这样做，因此在不更改模型的情况下可能很难增加偏差。我建议的一个选项是 Extremely Randomized Trees，它与随机森林几乎相同，但使用随机选择的阈值而不是完全优化。它们的偏差明显更大，应该使这些曲线彼此更接近一点。

显然不能保证 - 正如您所说，这是特定于数据的，但总体特征看起来很有希望（但可能需要更改模型）。

如何解释 training/validation 学习曲线的结果？

How to interpret the results of a training/validation learning curve?

machine-learning

variance

random-forest