具有分类变量的统计模型中的聚类标准误差 (Python)

Question

我想运行使用分类变量和聚类标准误差的 statsmodels 回归。

我有一个包含机构、治疗、年份和注册列的数据集。 Treatment 是一个 dummy，institution 是一个字符串，其他都是数字。我已确保删除所有空值。

df.dropna()    
reg_model = smf.ols("enroll ~ treatment + C(year) + C(institution)", df)
.fit(cov_type='cluster', cov_kwds={'groups': df['institution']})

我得到以下信息：

ValueError: The weights and list don't have the same length.

有没有办法解决这个问题，让我的标准错误集群？

Answer 1

您需要 cov_type='cluster' 身体健康。

cov_type 是关键字参数，当关键字用作位置参数时，位置不正确。 http://www.statsmodels.org/stable/generated/statsmodels.regression.linear_model.OLS.fit.html

一般来说，当关键字参数用作位置参数时，statsmodels 不保证向后兼容性，即关键字位置在未来版本中可能会发生变化。

但是，我不明白 ValueError 是从哪里来的。 Python 具有非常有用的回溯信息，在提问时添加完整的回溯信息或至少显示异常发生位置的最后几行非常有用。

具有分类变量的统计模型中的聚类标准误差 (Python)

Clustered standard errors in statsmodels with categorical variables (Python)

python

regression

statsmodels

patsy