测量机器学习模型的偏差

Measuring the bias of a machine learning model

我们如何衡量机器学习模型的偏差?我们是否可以仅通过计算其在训练数据和测试数据上的性能估计差异来确定它?例如,如果模型 SVM 在训练数据上的预测值为 0.53,在测试数据上的预测值为 0.60;能说偏差只有7分吗?

我读过一篇文章,其中提到 "The bias of a model validation technique is often measured in terms of the difference between a performance estimate that is derived from a model validation technique and the model performance on unseen data." Diagram about this here

谢谢

关于评论中的最后一个问题,我认为你指的是偏差和方差的其他用法。

在统计领域,bias 指的是预测或估计量中的偏移量(系统误差)。

在神经网络领域,偏差误差是指您的 train error 与最佳 error 的差异。

训练神经网络时,您会向模型展示几个可供学习的示例(训练集)和不供学习但用于衡量性能的示例(验证集或也称为开发集)。 train errorvalidation/dev error 之间的差异称为 variance,让您了解模型对未见数据的泛化能力。

由于您可能会训练多个模型,直到您对结果感到满意为止,因此您将 select 基于其 validation/dev error 的最佳模型。这可能涉及超参数的某种 overfitting,因为您只保留了 validation/dev error.

中具有最佳性能的模型

为确保您没有这样做(过度拟合超参数),您可以使用第三组称为未见过示例的测试集,而不是从中学习。如果 validation/dev errortest error 非常相似,那么(通常)您可以得出结论,您的模型在超参数上没有过度拟合,并且应该与您的开发集一样好。

再次强调,我强烈建议您观看 this video 了解更多详情。

希望对您有所帮助!