具有数值自变量的方差分析中 Sum Sq 的解释

Question

我不知道如何解释数字自变量中的平方和。

summary(aov(Petal.Width ~ Petal.Length + Species, iris))
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## Petal.Length   1  80.26   80.26 2487.02  < 2e-16 ***
## Species        2   1.60    0.80   24.77 5.48e-10 ***
## Residuals    146   4.71    0.03                     
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

我很清楚 Species 中的平方和（与组均值的偏差平方和），但是如果你有一个像 Petal.Length 这样的数字自变量，如何解释它们？

Answer 1

这个线性模型的组件不是正交的，所以我们不能独立于其他分量计算每个分量的平方和 (SS)。相反，我们必须进行一系列模型比较。在这种情况下 aov 由于公式中列出的组件的顺序考虑了这些模型。

fm0 <- lm(Petal.Width ~ 1, iris)                       # null model
fm1 <- lm(Petal.Width ~ Petal.Length, iris)
fm2 <- lm(Petal.Width ~ Petal.Length + Species, iris)  # full model

请注意，模型 fm 的残差平方和 (RSS) 为 sum(resid(fm)^2)，而 R 具有专门针对此的函数 deviance(fm)。牢记这一点，我们可以像这样分解空模型的 RSS：

deviance(fm0)                     # RSS of null model
= (deviance(fm0) - deviance(fm1)  # SS of Petal.Length
+ (deviance(fm1) - deviance(fm2)  # SS of Species
+  deviance(fm2)                  # RSS of full model

并且问题中 table 中报告的每个平方和是其中之一上面的行。也就是说，

deviance(fm0) - deviance(fm1)   # SS of Petal.Length
## [1] 80.25984                 

deviance(fm1) - deviance(fm2)   # SS of Species
## [1] 1.598453

deviance(fm2)                   # RSS of full model
## [1] 4.711643

备注

请注意，我们获得的 SS 值取决于我们使用的模型顺序。例如，如果我们使用这个在 Petal.Length 之前考虑 Species 的序列（而上面我们考虑 Petal.Length 然后 Species），我们会得到不同的 SS 值。

fm0  # same null model as above
fm1a <- lm(Petal.Width ~ Species, iris)
fm2 # same full model as above

deviance(fm0) - deviance(fm1a)   # SS of Species
## [1] 80.41333

deviance(fm1a) - deviance(fm2)   # SS of Petal.Length
## [1] 1.444957

deviance(fm2)                    # RSS of full model
## [1] 4.711643

请注意，如果我们按该顺序列出组件，这确实对应于 aov，即这次我们在 Petal.Length 之前列出 Species 以更改 aov 的模型顺序会考虑：

summary(aov(Petal.Width ~ Species + Petal.Length, iris))
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## Species        2  80.41   40.21 1245.89  < 2e-16 ***
## Petal.Length   1   1.44    1.44   44.77 4.41e-10 ***
## Residuals    146   4.71    0.03                     
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

具有数值自变量的方差分析中 Sum Sq 的解释

Interpretation of Sum Sq in ANOVA with numeric independent variable

r

anova

备注