如何通过聚合从组中删除 Pandas 中的嵌套列名?
How to get rid of nested column names in Pandas from group by aggregation?
我有以下代码,使用 Employee_id
的分组依据和 Customer_id
的聚合来查找每位员工的总销售额和唯一销售额。
Sales.groupby('Employee_id').agg({
'Customer_id': [
('total_sales', 'count'),
('unique_sales', 'nunique')
]})
重要的是要知道我也会对其他列执行聚合,但到目前为止我只写了这些。因此,如果您有建议的解决方案,请您考虑一下,以防产生影响。
虽然这在计算每位员工的总销售额和唯一销售额以及创建两列方面完全符合我的要求,但它会创建嵌套的列名称。所以列名看起来像 [('Customer_id', 'total_sales'), ('Customer_id', 'unique_sales')],这是我不想要的。有什么方法可以轻松摆脱嵌套部分以仅包含 ['total_sales'、'unique_sales'],或者最简单的方法是在我完成所有操作后重命名列?
谢谢!
您可以简单地重命名列:
import numpy as np
import pandas as pd
np.random.seed(2018)
df = pd.DataFrame(np.random.randint(10, size=(100, 3)), columns=['A','B','C'])
result = df.groupby('A').agg({'B': [('D','count'),('E','nunique')],
'C': [('F','first'),('G','max')]})
result.columns = result.columns.get_level_values(1)
print(result)
或者,您可以保存 groupby
对象,然后使用 grouped[col].agg(...)
生成子数据帧,然后可以将它们 pd.concat
组合在一起:
import numpy as np
import pandas as pd
np.random.seed(2018)
df = pd.DataFrame(np.random.randint(10, size=(100, 3)), columns=['A','B','C'])
grouped = df.groupby('A')
result = pd.concat([grouped['B'].agg([('D','count'),('E','nunique')]),
grouped['C'].agg([('F','first'),('G','max')])], axis=1)
print(result)
两个代码片段都产生以下结果(尽管列的顺序可能不同):
D E F G
A
0 18 8 8 9
1 12 8 6 6
2 14 8 0 8
3 10 9 8 9
4 7 6 3 5
5 8 5 6 7
6 9 7 9 9
7 8 6 4 7
8 8 7 2 9
9 6 5 7 9
总的来说,我认为事后重命名列是最简单且更具可读性的选择。
我有以下代码,使用 Employee_id
的分组依据和 Customer_id
的聚合来查找每位员工的总销售额和唯一销售额。
Sales.groupby('Employee_id').agg({
'Customer_id': [
('total_sales', 'count'),
('unique_sales', 'nunique')
]})
重要的是要知道我也会对其他列执行聚合,但到目前为止我只写了这些。因此,如果您有建议的解决方案,请您考虑一下,以防产生影响。
虽然这在计算每位员工的总销售额和唯一销售额以及创建两列方面完全符合我的要求,但它会创建嵌套的列名称。所以列名看起来像 [('Customer_id', 'total_sales'), ('Customer_id', 'unique_sales')],这是我不想要的。有什么方法可以轻松摆脱嵌套部分以仅包含 ['total_sales'、'unique_sales'],或者最简单的方法是在我完成所有操作后重命名列?
谢谢!
您可以简单地重命名列:
import numpy as np
import pandas as pd
np.random.seed(2018)
df = pd.DataFrame(np.random.randint(10, size=(100, 3)), columns=['A','B','C'])
result = df.groupby('A').agg({'B': [('D','count'),('E','nunique')],
'C': [('F','first'),('G','max')]})
result.columns = result.columns.get_level_values(1)
print(result)
或者,您可以保存 groupby
对象,然后使用 grouped[col].agg(...)
生成子数据帧,然后可以将它们 pd.concat
组合在一起:
import numpy as np
import pandas as pd
np.random.seed(2018)
df = pd.DataFrame(np.random.randint(10, size=(100, 3)), columns=['A','B','C'])
grouped = df.groupby('A')
result = pd.concat([grouped['B'].agg([('D','count'),('E','nunique')]),
grouped['C'].agg([('F','first'),('G','max')])], axis=1)
print(result)
两个代码片段都产生以下结果(尽管列的顺序可能不同):
D E F G
A
0 18 8 8 9
1 12 8 6 6
2 14 8 0 8
3 10 9 8 9
4 7 6 3 5
5 8 5 6 7
6 9 7 9 9
7 8 6 4 7
8 8 7 2 9
9 6 5 7 9
总的来说,我认为事后重命名列是最简单且更具可读性的选择。