Pandas 仅对一列进行分组和求和
Pandas Groupby and Sum Only One Column
所以我有一个数据框,df1
,如下所示:
A B C
1 foo 12 California
2 foo 22 California
3 bar 8 Rhode Island
4 bar 32 Rhode Island
5 baz 15 Ohio
6 baz 26 Ohio
我想按列 A
分组,然后对列 B
求和,同时将值保留在列 C
中。像这样:
A B C
1 foo 34 California
2 bar 40 Rhode Island
3 baz 41 Ohio
问题是,当我说
df.groupby('A').sum()
列 C
被删除,返回
B
A
bar 40
baz 41
foo 34
如何解决这个问题并在分组和求和时保留第 C
列?
唯一的方法是将 C 包含在您的 groupby 中(groupby 函数可以接受列表)。
试一试:
df.groupby(['A','C'])['B'].sum()
还有一点需要注意,如果您需要在聚合后使用 df,您还可以使用 as_index=False
选项来 return 数据框对象。当我第一次使用 Pandas 时,这给了我一些问题。示例:
df.groupby(['A','C'], as_index=False)['B'].sum()
如果您不关心列 C
中的内容而只想要 nth
值,则可以这样做:
df.groupby('A').agg({'B' : 'sum',
'C' : lambda x: x.iloc[n]})
另一种选择是使用 groupby.agg
并在 "C"
列上使用 first
方法。
out = df.groupby('A', as_index=False, sort=False).agg({'B':'sum', 'C':'first'})
输出:
A B C
0 foo 34 California
1 bar 40 Rhode Island
2 baz 41 Ohio
所以我有一个数据框,df1
,如下所示:
A B C
1 foo 12 California
2 foo 22 California
3 bar 8 Rhode Island
4 bar 32 Rhode Island
5 baz 15 Ohio
6 baz 26 Ohio
我想按列 A
分组,然后对列 B
求和,同时将值保留在列 C
中。像这样:
A B C
1 foo 34 California
2 bar 40 Rhode Island
3 baz 41 Ohio
问题是,当我说
df.groupby('A').sum()
列 C
被删除,返回
B
A
bar 40
baz 41
foo 34
如何解决这个问题并在分组和求和时保留第 C
列?
唯一的方法是将 C 包含在您的 groupby 中(groupby 函数可以接受列表)。
试一试:
df.groupby(['A','C'])['B'].sum()
还有一点需要注意,如果您需要在聚合后使用 df,您还可以使用 as_index=False
选项来 return 数据框对象。当我第一次使用 Pandas 时,这给了我一些问题。示例:
df.groupby(['A','C'], as_index=False)['B'].sum()
如果您不关心列 C
中的内容而只想要 nth
值,则可以这样做:
df.groupby('A').agg({'B' : 'sum',
'C' : lambda x: x.iloc[n]})
另一种选择是使用 groupby.agg
并在 "C"
列上使用 first
方法。
out = df.groupby('A', as_index=False, sort=False).agg({'B':'sum', 'C':'first'})
输出:
A B C
0 foo 34 California
1 bar 40 Rhode Island
2 baz 41 Ohio