评估线性回归(在微软机器学习中

evaluating linear regression (in microsoft machine learning

我正在玩 azure 机器学习中的线性回归和评估模型。

我仍然有点不确定评估的各种指标的含义和显示,如果我不正确,希望得到一些纠正。

  1. 平均绝对误差:残差(误差)的平均值。
  2. 均方根误差: 残差的标准偏差。有了这个,我可以看到与 mean/median 我的绝对错误有多远。
  3. 相对绝对误差:百分比值,表示相对误差和绝对误差的百分比差值。值越低越好,表示差异越小。
  4. 相对平方误差:误差的平方相对于绝对值的平方。不确定相对绝对误差这给我带来了什么。
  5. 决定系数: 表示输入之间的相关性。 +1 或 -1 表示完全相关,0 表示 none.
  6. 直方图显示了各种误差幅度的频率。这显示了很多小错误。随着错误值的增加,频率降低,这表明,当与上面的不良指标一起使用时,可能有一些 sku 或异常值对模型有很大影响,使其不太准确。

这些定义和假设是否正确?

您在大多数方面几乎都是正确的。为确保我们使用的是相同的术语,请了解一些背景知识:

线性回归使用一些结果变量 y 和自变量 x1, x2, .. 的数据,并试图找到最能预测 yx1, x2, .. 的线性组合。一旦这个 "best linear combination" 建立,您可以通过多种方式评估拟合的质量(即模型的质量)。您提到的六点都是回归方程质量的关键指标。

运行 一个回归给你多个 "ingredients"。例如,每次观察都会得到结果变量的 预测值 y 的观测值与预测值之间的差异称为残差或误差。残差可以是负数(如果 y 被高估)和正数(如果 y 被低估)。残差越接近零越好。但是,什么是 "close"?您提供的指标应该对此有所了解。

  • 平均绝对误差:取残差的绝对值并取其平均值。
  • 均方根误差:是你的残差的标准差。这将帮助您了解残差的 spread 有多大。残差是平方的,因此,高残差比小残差更重要。低 RMSE 是好的。
  • 相对绝对误差:绝对误差占结果变量实际值的分数y。在您的情况下,预测值平均比 y.

  • 的实际值高 75% higher/lower
  • 相对平方误差:平方误差 (residual^2) 作为实际值的分数。

  • 决定系数:几乎正确。这介于 0 和 1 之间,可以解释为自变量在解释 y 时的解释力。事实上,在你的例子中,自变量可以模拟 y 中 38.15% 的变化。此外,如果只有一个自变量,则该系数等于相关系数的平方。

均方根误差和决定系数几乎在所有情况下都是最重要的指标。老实说,我从未真正看到报告的其他指标。