描述性分析与斜率估计线性模型 R 之间的不匹配

mismatch between descriptive analysis and slope estimation linear model R

我是一名处理 R 建模的菜鸟学生。

我正在尝试为由 n 个重复行 x m 个变量列组成的数据集找到最佳模型:我想构建一个 lm 来解释 4 个分类回归变量对 Y(连续数据)植物数量的影响shoots/sq.m.

公式模型为:lm(Y ~ a+b+c+d).

回归量级别:"a" 4 个级别(阴影百分比 类),"b" 4 个级别(4 个调查年),"c" 3 个级别(高程类) 和 "d" 具有 7 个级别(对枝条进行采样的 7 个空间多边形)。

在描述性分析中,我观察到(使用箱线图)所有回归量水平的 Y 值都大幅下降,特别是对于分类变量 "a":其水平称为 "I"(100% 光),"II" (60%), "III" (30%), "IV" (10% 光), 有 350, 250, 150 100 Y 中值.

在汇总模型中,我可以观察到每个回归量水平的 Y 值的预期影响,"a" 除外:该回归量的水平显示与具有显着 p 值的 Y 的相反关系。这意味着与 I(包括在截距中)相比,II 级的估计斜率值为 +69,III 级为 +133,IV 级为 +150。

诊断图符合残差正态分布和方差齐性。

所以我的问题是,这种影响是否可能,或者我应该以不同的方式阅读摘要?

在此先感谢您的帮助。

Here you can see the distribution of each factors level included in the model

Summary and diagnostic plot

我将你的问题标记为要迁移到交叉验证,因为它实际上更像是一个统计问题。希望你能在那里得到更详细的答案。

在任何情况下,造成您不匹配的一个潜在原因是您的一个解释变量与另一个变量相关。那不会出现在您的诊断图中。相关变量 "causes" 是您在汇总图中看到的递减密度。一旦通过将其包含在回归中来消除该影响,真正的影响就会显示在增加的密度中

快速检查 运行 一些解释变量之间的关联测试。或者,您可以估计线性模型逐步添加一个变量,然后查看添加特定解释变量后阴影变量的符号是否发生变化。