如何解释数据的线性回归假设

How to interpret Linear regression assumptions of the data

我有一个包含 3719 个观察值和 9 个特征的数据集。因为我已经对选定的特征进行了多元线性回归。 我得到了这样的诊断图:

我通过绘图了解到,依赖和独立 variables.Residual 绘图之间没有线性关系,给出了非线性趋势。但从 Normal Q-Q plot 来看,它遵循正态分布。我不明白残差与杠杆图是什么意思?

我理解正确吗?如何解读这些情节。

您的残差表现出异方差性(左上角),这意味着您的结果的可变性随着结果值的增加而增加。例如,收入与支出:较富裕的人购买食物的价格具有更大的可变性(他们有时购买便宜的食物,有时购买昂贵的食物),而较贫穷的人往往只购买便宜的食物。

QQ 图(左下角)评估了残差假设的正态性,我没有发现任何严重违规的迹象。右上角的轻微偏差并不像你的异方差问题那么严重。

残差与杠杆图(右下角)表示可能对基于库克距离的结果有很大影响的点。这有助于识别数据中的异常值,您可以考虑在 运行 另一个模型(相当主观的评估)之前忽略这些异常值。