pandas 交叉表中的加权结果

Weighting results in pandas crosstab

我想使用第三列来加权 pandas 交叉表中的结果。

例如,以下内容:

import pandas as pd
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'bar'],
                   'B': [1, 1, 0, 0, 0],
                   'weight': [2, 3, 4, 5, 6]})
print(pd.crosstab(df.A, df.B))

结果:

B    0  1
A        
bar  2  1
foo  1  1

我想要的结果是:

B     0  1
A        
bar  11  3
foo   4  2

这真的很浪费内存,只有在权重可以解释为频率(即权重是整数)的情况下才有效,但它做起来相当简单:

df2 = df.iloc[ np.repeat( df.index.values, df.weight ) ]

那只是使用 advanced/fancy 索引按权重比例扩展行:

     A  B  weight
0  foo  1       2
0  foo  1       2
1  bar  1       3
1  bar  1       3
1  bar  1       3

然后你就可以正常运行交叉表了:

pd.crosstab(df2.A, df2.B)

B     0  1
A         
bar  11  3
foo   4  2

我怀疑有必要编写一个自定义版本的交叉表以便正确有效地处理权重,因为 pandas 中很少有(如果有的话?)自动为您计算权重的函数。不过这并不难,也许其他人会这样做作为答案。

可能 scipy 或 statsmodels 有自动执行此操作的方法?

您可以使用 aggfunc 参数为交叉表提供自定义聚合函数:

pd.crosstab(df.A, df.B, df.weight, aggfunc = sum)
B     0  1
A         
bar  11  3
foo   4  2