具有数值自变量的方差分析中 Sum Sq 的解释
Interpretation of Sum Sq in ANOVA with numeric independent variable
我不知道如何解释数字自变量中的平方和。
summary(aov(Petal.Width ~ Petal.Length + Species, iris))
## Df Sum Sq Mean Sq F value Pr(>F)
## Petal.Length 1 80.26 80.26 2487.02 < 2e-16 ***
## Species 2 1.60 0.80 24.77 5.48e-10 ***
## Residuals 146 4.71 0.03
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
我很清楚 Species 中的平方和(与组均值的偏差平方和),但是如果你有一个像 Petal.Length 这样的数字自变量,如何解释它们?
这个线性模型的组件不是正交的,所以我们不能
独立于其他分量计算每个分量的平方和 (SS)。相反,我们必须进行一系列模型比较。在这种情况下 aov
由于公式中列出的组件的顺序考虑了这些模型。
fm0 <- lm(Petal.Width ~ 1, iris) # null model
fm1 <- lm(Petal.Width ~ Petal.Length, iris)
fm2 <- lm(Petal.Width ~ Petal.Length + Species, iris) # full model
请注意,模型 fm
的残差平方和 (RSS) 为 sum(resid(fm)^2)
,而 R 具有专门针对此的函数 deviance(fm)
。牢记这一点,我们可以像这样分解空模型的 RSS:
deviance(fm0) # RSS of null model
= (deviance(fm0) - deviance(fm1) # SS of Petal.Length
+ (deviance(fm1) - deviance(fm2) # SS of Species
+ deviance(fm2) # RSS of full model
并且问题中 table 中报告的每个平方和是其中之一
上面的行。也就是说,
deviance(fm0) - deviance(fm1) # SS of Petal.Length
## [1] 80.25984
deviance(fm1) - deviance(fm2) # SS of Species
## [1] 1.598453
deviance(fm2) # RSS of full model
## [1] 4.711643
备注
请注意,我们获得的 SS 值取决于我们使用的模型顺序。例如,如果我们使用这个在 Petal.Length
之前考虑 Species
的序列(而上面我们考虑 Petal.Length
然后 Species
),我们会得到不同的 SS 值。
fm0 # same null model as above
fm1a <- lm(Petal.Width ~ Species, iris)
fm2 # same full model as above
deviance(fm0) - deviance(fm1a) # SS of Species
## [1] 80.41333
deviance(fm1a) - deviance(fm2) # SS of Petal.Length
## [1] 1.444957
deviance(fm2) # RSS of full model
## [1] 4.711643
请注意,如果我们按该顺序列出组件,这确实对应于 aov,即这次我们在 Petal.Length
之前列出 Species
以更改 aov
的模型顺序会考虑:
summary(aov(Petal.Width ~ Species + Petal.Length, iris))
## Df Sum Sq Mean Sq F value Pr(>F)
## Species 2 80.41 40.21 1245.89 < 2e-16 ***
## Petal.Length 1 1.44 1.44 44.77 4.41e-10 ***
## Residuals 146 4.71 0.03
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
我不知道如何解释数字自变量中的平方和。
summary(aov(Petal.Width ~ Petal.Length + Species, iris))
## Df Sum Sq Mean Sq F value Pr(>F)
## Petal.Length 1 80.26 80.26 2487.02 < 2e-16 ***
## Species 2 1.60 0.80 24.77 5.48e-10 ***
## Residuals 146 4.71 0.03
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
我很清楚 Species 中的平方和(与组均值的偏差平方和),但是如果你有一个像 Petal.Length 这样的数字自变量,如何解释它们?
这个线性模型的组件不是正交的,所以我们不能
独立于其他分量计算每个分量的平方和 (SS)。相反,我们必须进行一系列模型比较。在这种情况下 aov
由于公式中列出的组件的顺序考虑了这些模型。
fm0 <- lm(Petal.Width ~ 1, iris) # null model
fm1 <- lm(Petal.Width ~ Petal.Length, iris)
fm2 <- lm(Petal.Width ~ Petal.Length + Species, iris) # full model
请注意,模型 fm
的残差平方和 (RSS) 为 sum(resid(fm)^2)
,而 R 具有专门针对此的函数 deviance(fm)
。牢记这一点,我们可以像这样分解空模型的 RSS:
deviance(fm0) # RSS of null model
= (deviance(fm0) - deviance(fm1) # SS of Petal.Length
+ (deviance(fm1) - deviance(fm2) # SS of Species
+ deviance(fm2) # RSS of full model
并且问题中 table 中报告的每个平方和是其中之一 上面的行。也就是说,
deviance(fm0) - deviance(fm1) # SS of Petal.Length
## [1] 80.25984
deviance(fm1) - deviance(fm2) # SS of Species
## [1] 1.598453
deviance(fm2) # RSS of full model
## [1] 4.711643
备注
请注意,我们获得的 SS 值取决于我们使用的模型顺序。例如,如果我们使用这个在 Petal.Length
之前考虑 Species
的序列(而上面我们考虑 Petal.Length
然后 Species
),我们会得到不同的 SS 值。
fm0 # same null model as above
fm1a <- lm(Petal.Width ~ Species, iris)
fm2 # same full model as above
deviance(fm0) - deviance(fm1a) # SS of Species
## [1] 80.41333
deviance(fm1a) - deviance(fm2) # SS of Petal.Length
## [1] 1.444957
deviance(fm2) # RSS of full model
## [1] 4.711643
请注意,如果我们按该顺序列出组件,这确实对应于 aov,即这次我们在 Petal.Length
之前列出 Species
以更改 aov
的模型顺序会考虑:
summary(aov(Petal.Width ~ Species + Petal.Length, iris))
## Df Sum Sq Mean Sq F value Pr(>F)
## Species 2 80.41 40.21 1245.89 < 2e-16 ***
## Petal.Length 1 1.44 1.44 44.77 4.41e-10 ***
## Residuals 146 4.71 0.03
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1