我们不应该在线性回归的交叉验证中取 n 个模型的平均值吗？

Shouldn't we take average of n models in cross validation in linear regression?

我对线性回归模型中的交叉验证有疑问。

据我了解，在交叉验证中，我们将数据分成（比如说）10 份，并从 9 份中训练数据，其余的份用于测试。我们重复这个过程，直到我们测试了所有的折叠，这样每个折叠都被测试了一次。

当我们从9折训练模型时，我们不应该得到一个不同的模型（可能与我们在使用整个数据集时创建的模型略有不同）吗？我知道我们取所有 "n" 表现的平均值。

但是，模型呢？生成的模型不应该也被视为所有 "n" 个模型的平均值吗？我看到生成的模型与我们在交叉验证之前使用整个数据集创建的模型相同。如果我们甚至在交叉验证之后考虑整个模型（而不是对所有模型取平均值），那么计算 n 个不同模型的平均性能有什么意义（因为它们是从不同的数据折叠中训练出来的，并且应该是不一样吧？）

如果我的问题不清楚或太搞笑，我深表歉意。不过还是感谢阅读！

答案很简单：您使用（重复）交叉验证 (CV) 的过程来获得相对稳定的模型性能估计，而不是对其进行改进。

考虑尝试不同的模型类型和参数化，它们非常适合您的问题。使用 CV，您可以获得关于每种模型类型和参数化如何对未见数据执行的许多不同估计。从这些结果中，您通常会选择一种非常适合的模型类型 + 您将使用的参数化，然后在所有（训练）数据上再次训练它。多次这样做的原因（重复的不同分区，每个分区使用不同的分区拆分）是为了获得 稳定的性能估计 - 这将使您能够例如查看 mean/median 性能及其分布（会为您提供有关模型通常性能如何以及达到 lucky/unlucky 并获得 better/worse 结果的可能性的信息）。

还有两件事：

通常，使用 CV 最终会改善您的结果 - 仅仅是因为您采用了更适合该工作的模型。
您提到采用 "average" 模型。这实际上以 "model averaging" 的形式存在，您可以在其中平均多个可能经过不同训练的模型的结果以获得单个结果。这是使用 ensemble 个模型而不是单个模型的一种方法。但也给那些你最终想用CV来选择合理模型的人。

我喜欢你的想法。我想你只是无意中发现了随机森林： https://en.wikipedia.org/wiki/Random_forest

如果没有重复的 cv，当您根据新数据对它进行评分时，您看似最好的模型很可能只是一个平庸的模型...

我认为由于在所提问题中使用了“模型”一词，所以提出的一些答案有些混乱。如果我猜对了，你指的是在 K 折交叉验证中我们学习 K 个不同的预测变量（或决策函数），你称之为“模型”（这是一个坏主意，因为在机器学习中我们也进行模型选择，即在预测变量族之间进行选择，这可以使用交叉验证来完成）。交叉验证通常用于超参数选择或在不同算法或不同预测变量族之间进行选择。一旦选择了这些，最常见的方法是使用从所有数据中选择的超参数和算法重新学习预测器。但是，如果优化后的损失函数相对于预测变量是凸的，则可以简单地对从每次折叠中获得的不同预测变量进行平均。这是因为对于凸风险，预测变量平均值的风险始终小于单个风险的平均值。

平均（相对于再训练）的优点和缺点如下 PROs：（1）在每一折中，您对保留集所做的评估为您提供了对您获得的那些预测变量的风险的无偏估计，对于这些估计，不确定性的唯一来源是估计保留数据的经验风险（损失函数的平均值）。这应该与您在再训练时使用的逻辑形成对比，即交叉验证风险是“给定学习算法风险的预期值”（而不是给定预测变量）的估计值，因此如果您从同一分布的数据中重新学习，您应该具有平均相同的性能水平。但请注意，这是平均水平，当从整个数据中重新训练时，这可能会上升或下降。换句话说，由于您将重新训练，因此存在额外的不确定性来源。 (2) 已根据您在每次折叠中使用的数据点数量选择了超参数以进行学习。如果你从整个数据集重新学习，超参数的最优值在理论上和实践中已经不一样了，所以在重新训练的想法中，你真的祈祷你选择的超参数仍然很好对于更大的数据集。如果你使用留一法，显然没有问题，如果数据点的数量很大，有 10 倍 CV，你应该没问题。但是如果你从 5 倍 CV 的 25 个数据点学习，20 个点的超参数与 25 个点的超参数并不完全相同......

缺点：直觉上，您不会从一次使用所有数据进行训练中受益

不幸的是，关于这方面的透彻理论很少，但以下两篇论文，尤其是第二篇论文，准确地考虑了 K 折 CV 预测变量的平均或聚合。

荣格 (2016)。通过高维模型中的交叉验证分数进行有效的调整参数选择。国际数学与计算科学杂志, 10(1), 19-25.

Maillard, G.、Arlot, S. 和 Lerasle, M.（2019 年）。聚合保留。 arXiv 预印本 arXiv:1909.04890.

我们不应该在线性回归的交叉验证中取 n 个模型的平均值吗？

Shouldn't we take average of n models in cross validation in linear regression?

linear-regression

cross-validation