Python 计算条件均值和方差的方法?

Python method for calculating conditional means and variances?

Python 中是否有标准方法来计算 条件 均值和 pandas DataFrame 变量的方差?目的是测试数据的过度分散或分散不足,作为评估泊松或负二项式模型是否最适合回归的先决条件。

扫描 R 生态系统和交叉验证,我认为 R 有一些带有内置参数分散方法的包。但是我在 pandas、SciPy 或 StatsModels 中找不到等效的 Python。

这是我正在处理的数据的头部。有 25,000 个观察值。

aspunet c_#     c_++    Ruby    java
0       0       0       0       6
11      0       0       0       0
0       0       7       0       0
0       0       0       9       0   
8       0       0       0       0
0       2       0       0       0
0       0       0       4       0   
0       0       0       0       6   
conditional = [df.groupby(col_name) for col_name in df.columns]
mean        = [cond.mean() for cond in conditional]
var         = [cond.var() for cond in conditional]