计算 DFFITS 作为回归中杠杆和影响的诊断
Calculation of DFFITS as diagnostic for Leverage and Influence in regression
我正在尝试手动计算 DFFITS。得到的值应该等于dffits
函数得到的第一个值。不过一定是我自己的计算有问题
attach(cars)
x1 <- lm(speed ~ dist, data = cars) # all observations
x2 <- lm(speed ~ dist, data = cars[-1,]) # without first obs
x <- model.matrix(speed ~ dist) # x matrix
h <- diag(x%*%solve(crossprod(x))%*%t(x)) # hat values
num_dffits <- x1$fitted.values[1] - x2$fitted.values[1] #Numerator
denom_dffits <- sqrt(anova(x2)$`Mean Sq`[2]*h[1]) #Denominator
df_fits <- num_dffits/denom_dffits #DFFITS
dffits(x1)[1] # DFFITS function
你的分子错了。由于您已从第二个模型中删除第一个数据,因此相应的预测值不在 fitted(x2)
中。我们需要使用 predict(x2, cars[1, ])
代替 fitted(x2)[1]
。
帽子值可以通过
有效计算
h <- rowSums(qr.Q(x1$qr) ^ 2)
或使用其 R 包装函数
h <- hat(x1$qr, FALSE)
R 也有一个获取帽子值的通用函数:
h <- lm.influence(x1, FALSE)$hat
或其包装函数
h <- hatvalues(x1)
您也不必调用 anova
来获取 MSE:
c(crossprod(x2$residuals)) / x2$df.residual
我正在尝试手动计算 DFFITS。得到的值应该等于dffits
函数得到的第一个值。不过一定是我自己的计算有问题
attach(cars)
x1 <- lm(speed ~ dist, data = cars) # all observations
x2 <- lm(speed ~ dist, data = cars[-1,]) # without first obs
x <- model.matrix(speed ~ dist) # x matrix
h <- diag(x%*%solve(crossprod(x))%*%t(x)) # hat values
num_dffits <- x1$fitted.values[1] - x2$fitted.values[1] #Numerator
denom_dffits <- sqrt(anova(x2)$`Mean Sq`[2]*h[1]) #Denominator
df_fits <- num_dffits/denom_dffits #DFFITS
dffits(x1)[1] # DFFITS function
你的分子错了。由于您已从第二个模型中删除第一个数据,因此相应的预测值不在 fitted(x2)
中。我们需要使用 predict(x2, cars[1, ])
代替 fitted(x2)[1]
。
帽子值可以通过
有效计算h <- rowSums(qr.Q(x1$qr) ^ 2)
或使用其 R 包装函数
h <- hat(x1$qr, FALSE)
R 也有一个获取帽子值的通用函数:
h <- lm.influence(x1, FALSE)$hat
或其包装函数
h <- hatvalues(x1)
您也不必调用 anova
来获取 MSE:
c(crossprod(x2$residuals)) / x2$df.residual