vowpal wabbit 输出中关于 "best constant's loss" 的概念,以及教程中规定的经验法则
Concept on "best constant's loss" in vowpal wabbit's output, and the stated rule of thumb in tutorial
我试图更多地了解 vowpal,并在线性回归教程中看到了这个陈述。 (https://vowpalwabbit.org/tutorials/getting_started.html)
“最后,打印了一些更直接的总数。最佳常数和最佳常数的损失仅在您使用平方损失时才有效。平方损失是 Vowpal Wabbit 默认值。它们计算最佳常数的预测变量和损失最佳常数预测器。
如果平均损失不优于最佳常数损失,则说明有问题。在这种情况下,我们的例子太少无法概括。”
基于该上下文,我有 2 个相关问题:
- 最佳常数的损失是基于线性回归中空模型的损失吗?
- "average loss" 的一般经验法则是否不优于 "best constant's loss" 适用于所有损失函数(因为声明确实声明 "best constant" 仅适用于默认平方损失函数)?
提前感谢您的任何回复!
最佳常数的损失是基于线性回归中空模型的损失吗?
如果空模型是指始终预测最佳常数的模型,那么是的。
"average loss" 的一般经验法则不优于 "best constant's loss" 适用于所有损失函数吗?
是的。如果始终使用相同的预测(适用于给定损失函数的一些最佳常数)你比学习模型做得更好,这意味着学习模型不如最简单的模型。给定损失函数的最简单模型总是预测相同的(最佳常数)结果,忽略数据中的输入特征。
学习模型不如最佳常数模型的最常见情况之一是数据集太小。当数据集很小时,学习过程还没有机会完全收敛。这也称为欠拟合。
如何计算最佳常数(为了完整性)?
在线性回归(最小二乘超平面,vw --loss_function squared
,这是默认值)的情况下,最好的常数是简单平均(又名mean) 的标签。这最小化了平方损失。
在 quantile-loss(又名绝对误差,vw --loss_function quantile
)的情况下,最佳常数是 median的标签,它最小化标签和预测之间的距离总和。
我试图更多地了解 vowpal,并在线性回归教程中看到了这个陈述。 (https://vowpalwabbit.org/tutorials/getting_started.html)
“最后,打印了一些更直接的总数。最佳常数和最佳常数的损失仅在您使用平方损失时才有效。平方损失是 Vowpal Wabbit 默认值。它们计算最佳常数的预测变量和损失最佳常数预测器。
如果平均损失不优于最佳常数损失,则说明有问题。在这种情况下,我们的例子太少无法概括。”
基于该上下文,我有 2 个相关问题:
- 最佳常数的损失是基于线性回归中空模型的损失吗?
- "average loss" 的一般经验法则是否不优于 "best constant's loss" 适用于所有损失函数(因为声明确实声明 "best constant" 仅适用于默认平方损失函数)?
提前感谢您的任何回复!
最佳常数的损失是基于线性回归中空模型的损失吗?
如果空模型是指始终预测最佳常数的模型,那么是的。
"average loss" 的一般经验法则不优于 "best constant's loss" 适用于所有损失函数吗?
是的。如果始终使用相同的预测(适用于给定损失函数的一些最佳常数)你比学习模型做得更好,这意味着学习模型不如最简单的模型。给定损失函数的最简单模型总是预测相同的(最佳常数)结果,忽略数据中的输入特征。
学习模型不如最佳常数模型的最常见情况之一是数据集太小。当数据集很小时,学习过程还没有机会完全收敛。这也称为欠拟合。
如何计算最佳常数(为了完整性)?
在线性回归(最小二乘超平面,vw --loss_function squared
,这是默认值)的情况下,最好的常数是简单平均(又名mean) 的标签。这最小化了平方损失。
在 quantile-loss(又名绝对误差,vw --loss_function quantile
)的情况下,最佳常数是 median的标签,它最小化标签和预测之间的距离总和。