机器学习 + Python : 绘制验证曲线

Machine Learning + Python : Drawing Validation curve

我想像这样为我的朴素贝叶斯估计器绘制一条验证曲线:

http://scikit-learn.org/stable/auto_examples/model_selection/plot_validation_curve.html

我没看懂训练分数是什么。

谁能给我解释一下?

训练分数是在训练过程中获得的分数。例如,当您调用类似 yourmodel.fit(x_train, y_train) 的内容时,在本例中为橙色线。在幕后,您的模型正在根据您的 y_train[= 对您的 x_train 数据(您的特征,例如温度或湿度)进行预测20=](你的 labels/outcome,例如下雨或不下雨)。 非常粗略地,训练分数是根据您的模型预测正确的数量计算的。例如,您的模型的得分可能为 0.9436..(大约 94%),这意味着您的机器学习模型在 94% 的时间内输出了正确的决策。您经常会发现,在训练期间,模型往往会比在测试集上得分更高。您可以看到橙色线看起来好像是 1.0,有效得分为 100%,但交叉验证(测试)得分最高得分略低于 100%,这是更常见的情况。

假设分数为 1.0 意味着您的模型是完美的可能是危险的,这就是 过度拟合 出现的地方,在高水平上意味着您的模型适合与您的训练数据过于紧密,并且不会很好地推广到新数据。我建议查看 this 了解更多信息,Sci-Kit 学习网站有很好的文档。