回归标准误差聚类和对异方差+序列自相关的鲁棒性
Regression standard error clustering AND robust to heteroskedascity + serial autocorrelation
如标题所示,我正在尝试 运行 python 中的回归,其中标准误差聚集 以及 稳健异方差和自相关 (HAC)。我在 statsmodels
(sm
) 内工作,但显然愿意使用其他库(例如 linearmodels
)。
聚类,例如通过 id,代码将是
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='cluster', cov_kwds={'groups': df['id']}, use_t=True)
对于 HAC 标准错误,代码为
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='HAC', cov_kwds={'maxlags': max_lags}, use_t=True)
考虑到 cov_type
不能同时是 cluster
和 HAC
,在 statsmodels 中两者似乎都不可行?是这样吗,and/or 有没有其他方法可以同时拥有两者?
有两个面板 HAC cov_types hac-groupsum
和 hac-panel
,但我只知道它们用于面板数据,但它们应该适用于集群数据。据我记得有一些文献说他们在高度不平衡的数据上不是很好(例如比较美国各州的人口数据,这些州的人口数据规模差异很大)。
实现的主要参考是 Petersen 的文章,例如
https://www.kellogg.northwestern.edu/faculty/petersen/htm/papers/standarderror.html
与 Petersen 进行比较的示例在单元测试中。
当我们有双(路)集群时,Statsmodels 也有集群稳健标准误差。
这些协方差矩阵的随机行为取决于聚类数量、时间段数量或两者是否在大样本中变大。
如标题所示,我正在尝试 运行 python 中的回归,其中标准误差聚集 以及 稳健异方差和自相关 (HAC)。我在 statsmodels
(sm
) 内工作,但显然愿意使用其他库(例如 linearmodels
)。
聚类,例如通过 id,代码将是
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='cluster', cov_kwds={'groups': df['id']}, use_t=True)
对于 HAC 标准错误,代码为
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='HAC', cov_kwds={'maxlags': max_lags}, use_t=True)
考虑到 cov_type
不能同时是 cluster
和 HAC
,在 statsmodels 中两者似乎都不可行?是这样吗,and/or 有没有其他方法可以同时拥有两者?
有两个面板 HAC cov_types hac-groupsum
和 hac-panel
,但我只知道它们用于面板数据,但它们应该适用于集群数据。据我记得有一些文献说他们在高度不平衡的数据上不是很好(例如比较美国各州的人口数据,这些州的人口数据规模差异很大)。
实现的主要参考是 Petersen 的文章,例如
https://www.kellogg.northwestern.edu/faculty/petersen/htm/papers/standarderror.html
与 Petersen 进行比较的示例在单元测试中。
当我们有双(路)集群时,Statsmodels 也有集群稳健标准误差。
这些协方差矩阵的随机行为取决于聚类数量、时间段数量或两者是否在大样本中变大。