为什么 cross_val_predict 不适合衡量泛化误差?

Why is cross_val_predict not appropriate for measuring the generalisation error?

当我使用交叉验证训练 SVC 时,

y_pred = cross_val_predict(svc, X, y, cv=5, method='predict')

cross_val_predict returns 对 X 中的每个元素进行一个 class 预测,因此当 m=1000y_pred.shape = (1000,)。 这是有道理的,因为 cv=5 因此 SVC 在 X 的不同部分被训练和验证了 5 次。在五次验证中的每一次中,都对五分之一的实例 (m/5 = 200) 进行了预测。随后,将 5 个向量(每个包含 200 个预测)合并为 y_pred

考虑到所有这些,我可以使用 y_pred 和 y 来计算 SVC 的整体精度。

score = accuracy_score(y, y_pred)

但是 (!) cross_val_predict 的文档指出:

The result of cross_val_predict may be different from those obtained using cross_val_score as the elements are grouped in different ways. The function cross_val_score takes an average over cross-validation folds, whereas cross_val_predict simply returns the labels (or probabilities) from several distinct models undistinguished. Thus, cross_val_predict is not an appropriate measure of generalisation error.

有人可以换句话说,为什么 cross_val_predict 不适合测量泛化误差,例如通过 accuracy_score(y, y_pred)?


编辑:

我首先假设 cv=5 在 5 个验证中的每一个中都会对 X 的所有实例进行预测。但这是错误的,每个 X 的实例只进行了 1/5 的预测验证。

cross_val_score 对比 cross_val_predict

cross_val_predictcross_val_score的区别描述的很清楚而且里面还有一个link,可以跟着兔子走

本质上:

  • cross_val_score return每折的分数
  • cross_val_predict 对每个数据点进行折叠预测。

现在,您无法知道 cross_val_predict 中的哪些预测来自哪个折叠,因此您无法像 cross_val_score 那样计算每次折叠的平均值。您可以对 cross_val_predictcross_val_scoreaccuracy_score 的平均值,但是 average of averages is not equal to average,因此结果会有所不同。

如果一次折叠的准确度非常低,那么它对整体平均值的影响会比平均 cross_val_predict 的情况更大。

此外,您可以对这七个数据点进行不同的分组并获得不同的结果。这就是为什么有关于分组产生差异的信息。

cross_val_score 和 cross_val_predict

之间的区别示例

让我们假设 cross_val_predict 对 7 个数据点使用 3 倍,并且折叠预测为 [0,1,1,0,1,0,1],而真实目标为 [0,1,1,0,1,1,0]。准确度得分将计算为 5/7(只有最后两个预测错误)。

现在采用相同的预测并将它们分成以下 3 个部分:

  • [0, 1, 1] - 预测和 [0, 1, 1] 目标 -> 第一次折叠的准确度为 1
  • [0, 1] - 预测和 [0, 1] 目标 -> 再次完美准确
  • [0, 1] - 预测和 [1, 0] 目标 -> 0 准确度

这就是 cross_val_score 所做的,并且会 return 一个精度元组,即 [1, 1, 0]。现在,您可以对这个元组进行平均,总精度为 2/3.

看到了吗?使用相同的数据,您将获得两个 不同的 准确度测量值(一个是 5/7 另一个 2/3)。

在这两种情况下,分组都会改变您获得的总准确度。分类器错误 更严重 cross_val_score,因为每个错误对组的准确性的影响大于对所有预测的平均准确性的影响(您可以自己检查)。

尽管两者都可用于评估您的模型在验证集上的性能,但我认为没有禁忌症,只是行为不同(折叠错误没有那么严重)。

为什么两者都不是泛化的衡量标准

如果您根据交叉验证方案拟合您的算法,则您正在执行数据泄漏(针对训练和验证数据对其进行微调)。为了了解泛化错误,您将不得不 将一部分数据排除在交叉验证和训练之外

您可能想要执行双交叉验证或只保留测试集以了解您的模型实际泛化的程度。