vowpal wabbit 输出中关于 "best constant's loss" 的概念，以及教程中规定的经验法则

Concept on "best constant's loss" in vowpal wabbit's output, and the stated rule of thumb in tutorial

我试图更多地了解 vowpal，并在线性回归教程中看到了这个陈述。 (https://vowpalwabbit.org/tutorials/getting_started.html)

“最后，打印了一些更直接的总数。最佳常数和最佳常数的损失仅在您使用平方损失时才有效。平方损失是 Vowpal Wabbit 默认值。它们计算最佳常数的预测变量和损失最佳常数预测器。

如果平均损失不优于最佳常数损失，则说明有问题。在这种情况下，我们的例子太少无法概括。”

基于该上下文，我有 2 个相关问题：

最佳常数的损失是基于线性回归中空模型的损失吗？
"average loss" 的一般经验法则是否不优于 "best constant's loss" 适用于所有损失函数（因为声明确实声明 "best constant" 仅适用于默认平方损失函数)?

提前感谢您的任何回复！

如果空模型是指始终预测最佳常数的模型，那么是的。

是的。如果始终使用相同的预测（适用于给定损失函数的一些最佳常数）你比学习模型做得更好，这意味着学习模型不如最简单的模型。给定损失函数的最简单模型总是预测相同的（最佳常数）结果，忽略数据中的输入特征。

学习模型不如最佳常数模型的最常见情况之一是数据集太小。当数据集很小时，学习过程还没有机会完全收敛。这也称为欠拟合。

在线性回归（最小二乘超平面，vw --loss_function squared，这是默认值）的情况下，最好的常数是简单平均（又名mean) 的标签。这最小化了平方损失。

在 quantile-loss（又名绝对误差，vw --loss_function quantile）的情况下，最佳常数是 median的标签，它最小化标签和预测之间的距离总和。