R:plm和LSDV模型的区别

R: difference between plm and LSDV model

我刚刚开始思考固定效应问题,如果问题多余,我深表歉意。 基于 Oscar Torres-Reyna (https://www.princeton.edu/~otorres/Panel101R.pdf) 的 Panel101 幻灯片,我正在比较两种不同代码的输出:

  1. lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)

  2. plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

根据 Panel101 幻灯片,两种模型产生完全相同的系数,但调整后的 R2 差异很大(0.954 对 0.119)。

我是不是做错了什么或者如何解释?

谢谢!

(我本来打算发表评论的,但是发表的时间太长了....)

lm 模型的摘要报告了一个模型的 R2(为简单起见,仅使用一个相关变量)

lm(dependent_variable + independent_variable + factor(country))

plm 模型的输出报告了模型的 R2

lm(dependent_var_demean ~ independent_var_demean)

其中 independent_var_demean 和 dependent_var_demean 是通过从每个观察中减去因变量和独立变量的国家/地区特定均值来计算的。

事实证明,independent_var 上的回归系数在两种情况下是相同的。第一个模型的R2要大得多,因为它有N+1个解释变量,而第二个模型只有1个。

那么 'correct' 哪个 R2 是?这取决于上下文。如果您将单个 FE 视为令人​​讨厌的参数并且只对 independent_variable 上的回归系数感兴趣,那么您在报告内部模型(或 'plm output')的 R2 时会更加一致。在某些应用程序中,单个 FE 也可能很有趣,因为它们代表了一些影响依赖和独立 var 的未观察到的特性。在这种情况下,LSDV R2(由 lm 报告)可能更相关。

尽管如此,应该提到的是,在典型的 large-N/small-T(即许多单位只观察了几次)情况下,个别 FE 估计可能有偏差。这被称为附带参数问题。

最后,我认为我需要对 lfe package 做固定效应回归的事情大声疾呼。它在大面板上非常有效,IMO 语法比 plm 更好,并且与 plm 相比,集群和稳健的标准错误处理得更优雅。它还在摘要输出中报告了两个 R2。