R：plm和LSDV模型的区别

Question

我刚刚开始思考固定效应问题，如果问题多余，我深表歉意。基于 Oscar Torres-Reyna (https://www.princeton.edu/~otorres/Panel101R.pdf) 的 Panel101 幻灯片，我正在比较两种不同代码的输出：

lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)
plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

根据 Panel101 幻灯片，两种模型产生完全相同的系数，但调整后的 R2 差异很大（0.954 对 0.119）。

我是不是做错了什么或者如何解释？

谢谢！

Answer 1

（我本来打算发表评论的，但是发表的时间太长了....）

lm 模型的摘要报告了一个模型的 R2（为简单起见，仅使用一个相关变量）

lm(dependent_variable + independent_variable + factor(country))

plm 模型的输出报告了模型的 R2

lm(dependent_var_demean ~ independent_var_demean)

其中 independent_var_demean 和 dependent_var_demean 是通过从每个观察中减去因变量和独立变量的国家/地区特定均值来计算的。

事实证明，independent_var 上的回归系数在两种情况下是相同的。第一个模型的R2要大得多，因为它有N+1个解释变量，而第二个模型只有1个。

那么 'correct' 哪个 R2 是？这取决于上下文。如果您将单个 FE 视为令人讨厌的参数并且只对 independent_variable 上的回归系数感兴趣，那么您在报告内部模型（或 'plm output'）的 R2 时会更加一致。在某些应用程序中，单个 FE 也可能很有趣，因为它们代表了一些影响依赖和独立 var 的未观察到的特性。在这种情况下，LSDV R2（由 lm 报告）可能更相关。

尽管如此，应该提到的是，在典型的 large-N/small-T（即许多单位只观察了几次）情况下，个别 FE 估计可能有偏差。这被称为附带参数问题。

最后，我认为我需要对 lfe package 做固定效应回归的事情大声疾呼。它在大面板上非常有效，IMO 语法比 plm 更好，并且与 plm 相比，集群和稳健的标准错误处理得更优雅。它还在摘要输出中报告了两个 R2。

R：plm和LSDV模型的区别

R: difference between plm and LSDV model

r

plm