Pandas 仅对一列进行分组和求和

Pandas Groupby and Sum Only One Column

所以我有一个数据框,df1,如下所示:

       A      B      C
1     foo    12    California
2     foo    22    California
3     bar    8     Rhode Island
4     bar    32    Rhode Island
5     baz    15    Ohio
6     baz    26    Ohio

我想按列 A 分组,然后对列 B 求和,同时将值保留在列 C 中。像这样:

      A       B      C
1    foo     34    California
2    bar     40    Rhode Island
3    baz     41    Ohio

问题是,当我说

df.groupby('A').sum()

C 被删除,返回

      B
A
bar  40
baz  41
foo  34

如何解决这个问题并在分组和求和时保留第 C 列?

唯一的方法是将 C 包含在您的 groupby 中(groupby 函数可以接受列表)。

试一试:

df.groupby(['A','C'])['B'].sum()

还有一点需要注意,如果您需要在聚合后使用 df,您还可以使用 as_index=False 选项来 return 数据框对象。当我第一次使用 Pandas 时,这给了我一些问题。示例:

df.groupby(['A','C'], as_index=False)['B'].sum()

如果您不关心列 C 中的内容而只想要 nth 值,则可以这样做:

df.groupby('A').agg({'B' : 'sum',
                     'C' : lambda x: x.iloc[n]})

另一种选择是使用 groupby.agg 并在 "C" 列上使用 first 方法。

out = df.groupby('A', as_index=False, sort=False).agg({'B':'sum', 'C':'first'})

输出:

     A   B             C
0  foo  34    California
1  bar  40  Rhode Island
2  baz  41          Ohio