机器学习模型是否可能有低测试误差和高训练误差?
Is it possible to have low test error and high training error for a machine learning model?
当我们有大的测试误差和大的训练误差时,我们就说它是一个 BIAS 问题。当我们有低训练误差和高测试误差时,我们称之为方差问题。当训练误差和测试误差都低到可接受的程度时,我们说它是 GOOD fit 或 BEST fit model。
但是有没有可能训练错误比测试错误更多???
如果是,那我们怎么说呢??
测试和训练集也是随机选择的,所以没有事先设置!
Training Test Model
error error
low low GOOD FIT
low high HIGH VARIANCE
high high HIGH BIAS
high low ????????
由于学习模型旨在减少训练错误(因为学习时测试集不可用,因此 "test")这是非常不可能的,我会说除非你专门创建一些示例这发生了,它不会发生。
要做到这一点,训练集必须是高方差之一,或者与所选模型不兼容的模型(例如,线性模型分离不能线性分离的数据)会产生高训练误差,因为任何产生低训练错误的测试集都不能反映与给定训练集中相同的方差。如果遇到这样的问题,很可能是这些集合的构造有问题。由于这种情况不太可能发生,我不知道给它起过什么名字
当我们有大的测试误差和大的训练误差时,我们就说它是一个 BIAS 问题。当我们有低训练误差和高测试误差时,我们称之为方差问题。当训练误差和测试误差都低到可接受的程度时,我们说它是 GOOD fit 或 BEST fit model。
但是有没有可能训练错误比测试错误更多??? 如果是,那我们怎么说呢?? 测试和训练集也是随机选择的,所以没有事先设置!
Training Test Model
error error
low low GOOD FIT
low high HIGH VARIANCE
high high HIGH BIAS
high low ????????
由于学习模型旨在减少训练错误(因为学习时测试集不可用,因此 "test")这是非常不可能的,我会说除非你专门创建一些示例这发生了,它不会发生。
要做到这一点,训练集必须是高方差之一,或者与所选模型不兼容的模型(例如,线性模型分离不能线性分离的数据)会产生高训练误差,因为任何产生低训练错误的测试集都不能反映与给定训练集中相同的方差。如果遇到这样的问题,很可能是这些集合的构造有问题。由于这种情况不太可能发生,我不知道给它起过什么名字