机器学习 + Python : 绘制验证曲线

Machine Learning + Python : Drawing Validation curve

我想像这样为我的朴素贝叶斯估计器绘制一条验证曲线：

http://scikit-learn.org/stable/auto_examples/model_selection/plot_validation_curve.html

我没看懂训练分数是什么。

谁能给我解释一下？

训练分数是在训练过程中获得的分数。例如，当您调用类似 yourmodel.fit(x_train, y_train) 的内容时，在本例中为橙色线。在幕后，您的模型正在根据您的 y_train[= 对您的 x_train 数据（您的特征，例如温度或湿度）进行预测20=]（你的 labels/outcome，例如下雨或不下雨）。 非常粗略地，训练分数是根据您的模型预测正确的数量计算的。例如，您的模型的得分可能为 0.9436..（大约 94%），这意味着您的机器学习模型在 94% 的时间内输出了正确的决策。您经常会发现，在训练期间，模型往往会比在测试集上得分更高。您可以看到橙色线看起来好像是 1.0，有效得分为 100%，但交叉验证（测试）得分最高得分略低于 100%，这是更常见的情况。

假设分数为 1.0 意味着您的模型是完美的可能是危险的，这就是 过度拟合 出现的地方，在高水平上意味着您的模型适合与您的训练数据过于紧密，并且不会很好地推广到新数据。我建议查看 this 了解更多信息，Sci-Kit 学习网站有很好的文档。

机器学习 + Python : 绘制验证曲线

Machine Learning + Python : Drawing Validation curve

python

scikit-learn

cross-validation

naivebayes

sklearn-pandas