MATLAB fitlm:OLS 与稳健回归

MATLAB fitlm: OLS vs Robust regression

我正在尝试使用 MATLAB 的 fitlm 工具计算一些数据的线性回归。使用普通最小二乘法 (OLS),我得到相当低的 R 平方值 (~ 0.2-0.5),有时甚至是不切实际的结果。而当使用稳健回归(特别是 'talwar' 选项)时,我得到了更好的结果 (R2 ~ 0.7-0.8)。

我不是统计学家,所以我的问题是:有什么理由让我相信稳健的结果更好?

这里是一些数据的例子。显示的数据产生 OLS 的 R2:0.56,robust:0.72.

您将在 R 值中获得显着差异的一个原因是 Talwar 处理异常值的方式不同。 Talwar 将您的数据集细分为多个部分,并计算每个部分的平均值。

摘自 Talwar 论文的摘要:

'Estimates of the parameters of a linear model are usually obtained by the method of ordinary least-squares (OLS), which is sensitive to large values of the additive error term... we obtain a simple, consistent and asymptotically normal initial estimate of the coefficients, which protects the analyst from large values of εi which are often hard to detect using OLS on a model with many regressors. '- https://www.jstor.org/stable/2285386?seq=1#page_scan_tab_contents

Talwar 还是 OLS 更好取决于您对测量过程的了解(即如何解释异常值)。如果合适,您可以使用 Q 检验修剪数据以删除异常值(请参阅 http://education.mrsec.wisc.edu/research/topic_guides/outlier_handout.pdf),这应该可以最大限度地减少您在 Talwar 和 OLS 之间看到的 R 差异。

当然可以。稳健回归的概念非常广泛。有不同类型的稳健回归。因此,在某些情况下,一种稳健回归的性能优于其他稳健回归方法。