一个模型可以同时具有高偏差和高方差吗?过拟合和欠拟合?

Can a model have both high bias and high variance? Overfitting and Underfitting?

据我所知,在创建监督学习模型时,如果我们做出非常简单的假设(例如,如果我们的函数是线性的),我们的模型可能会有很高的偏差,这会导致算法错过我们的特征和目标之间的关系导致错误的输出。这是欠拟合。

另一方面,如果我们的算法过于强大(许多多项式特征),它将对训练集中的小波动非常敏感,从而导致过度拟合:对训练数据中的随机噪声建模,而不是预期的输出。这是过度拟合。

这对我来说很有意义,但我听说一个模型可以同时具有高方差和高偏差,我只是不明白这怎么可能。如果高偏差和高方差是欠拟合和过拟合的同义词,那么如何在同一个模型上同时出现过拟合和欠拟合呢?可能吗?怎么会发生?当它真的发生时会是什么样子?

想象一个回归问题。我定义了一个分类器,它输出训练数据中观察到的目标变量的最大值,用于所有可能的输入。

这个模型既有偏差(无论输入多么丰富或多变,也只能表示单一输出)并且具有高方差(数据集的最大值会在数据集之间表现出很大的可变性)。

你在某种程度上是对的,偏差意味着模型可能欠拟合,方差意味着模型容易过度拟合,但它们并不完全相同。

根据我的说法,当直线与数据中的异常值相吻合时,就会出现高偏差和高方差