为什么 lm_robust() HC3 标准误差小于 coeftest() HC0 标准误差?

Why is lm_robust() HC3 standard error smaller than coeftest() HC0 standard error?

我正在使用包 'estimatr' 的 lm_robust 作为固定效应模型,包括 HC3 鲁棒标准误差。我不得不从 vcovHC() 切换,因为我的数据样本太大了,无法由它处理。

使用以下行进行回归:

lm_robust(log(SPREAD) ~ PERIOD, data = dat, fixed_effects = ~ STOCKS + TIME, se_type = "HC3")

代码运行良好,系数与使用包 plm 中的固定效果相同。由于数据样本太大,我无法使用 coeftest 来估计 HC3 标准误差和 plm 输出,我将 lm_robust 的 HC3 估计量与 coeftest(model, vcov= vcovHC(model, type = HC1)) 的 HC1 估计量进行了比较 结果,lm_robust 的 HC3 标准误差比 coeftest 的 HC1 小得多。

有人有解释吗,因为 HC3 应该比 HC1 更严格。我感谢任何建议和解决方案。

编辑 用于系数测试的模型:

plm(log(SPREAD) ~ PERIOD, data = dat, index = c("STOCKS", "TIME"), effect = "twoway", method = "within")

plmvcovHC() 方法似乎自动估计了聚类鲁棒标准误差,而 lm_robust() 则没有。因此,与 lm_robustlm 相比,plmHC1 标准误差估计会显得夸大。

使用一些玩具数据:

library(sandwich)
library(tidyverse)
library(plm)
library(estimatr)
library(lmtest)

set.seed(1981)
x <- sin(1:1000)
y <- 1 + x + rnorm(1000)
f <- as.character(sort(rep(sample(1:100), 10)))
t <- as.character(rep(sort(sample(1:10)), 100))

dat <- tibble(y = y, x = x, f = f, t = t)

lm_fit <- lm(y ~ x + f + t, data = dat)
plm_fit <- plm(y ~ x, index = c("f", "t"), model = "within", effect = "twoways", data = dat)
rb_fit <- lm_robust(y ~ x, fixed_effects = ~ f + t, data = dat, se_type = "HC1", return_vcov = TRUE)

sqrt(vcovHC(lm_fit, type = "HC1")[2, 2])
#> [1] 0.04752337
sqrt(vcovHC(plm_fit, type = "HC1"))
#>            x
#> x 0.05036414
#> attr(,"cluster")
#> [1] "group"
sqrt(rb_fit$vcov)
#>            x
#> x 0.04752337

rb_fit <- lm_robust(y ~ x, fixed_effects = ~ f + t, data = dat, se_type = "HC3", return_vcov = TRUE)
sqrt(vcovHC(lm_fit, type = "HC3")[2, 2])
#> [1] 0.05041177
sqrt(vcovHC(plm_fit, type = "HC3"))
#>            x
#> x 0.05042142
#> attr(,"cluster")
#> [1] "group"
sqrt(rb_fit$vcov)
#>            x
#> x 0.05041177

这两个包中似乎没有等效的集群稳健标准错误类型。但是,在 lm_robust():

中指定集群健壮的 SE 时,SE 会变得更近
rb_fit <- lm_robust(y ~ x, fixed_effects = ~ f + t, clusters = f, data = dat, se_type = "CR0")
summary(rb_fit)
#> 
#> Call:
#> lm_robust(formula = y ~ x, data = dat, clusters = f, fixed_effects = ~f + 
#>     t, se_type = "CR0")
#> 
#> Standard error type:  CR0 
#> 
#> Coefficients:
#>   Estimate Std. Error t value  Pr(>|t|) CI Lower CI Upper DF
#> x    0.925    0.05034   18.38 1.133e-33   0.8251    1.025 99
#> 
#> Multiple R-squared:  0.3664 ,    Adjusted R-squared:  0.2888
#> Multiple R-squared (proj. model):  0.3101 ,  Adjusted R-squared (proj. model):  0.2256 
#> F-statistic (proj. model): 337.7 on 1 and 99 DF,  p-value: < 2.2e-16
coeftest(plm_fit, vcov. = vcovHC(plm_fit, type = "HC1"))
#> 
#> t test of coefficients:
#> 
#>   Estimate Std. Error t value  Pr(>|t|)    
#> x 0.925009   0.050364  18.366 < 2.2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

reprex package (v0.3.0)

于 2020-04-16 创建