pandas reset_index 在 groupby.value_counts() 之后

Question

我正在尝试按列分组并计算另一列的值计数。

import pandas as pd
dftest = pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2], 
               'Amt':[20,20,20,30,30,30,30,40, 40,10, 10, 40,40,40]})

print(dftest)

dftest 看起来像

执行分组

grouper = dftest.groupby('A')
df_grouped = grouper['Amt'].value_counts()

这给出了

   A  Amt
1  30     4
   20     3
   40     2
2  40     3
   10     2
Name: Amt, dtype: int64

我想要的是保留每组的前两行

此外，当我尝试 reset_index

时，我被错误弄糊涂了

df_grouped.reset_index()

给出以下错误

df_grouped.reset_index() ValueError: cannot insert Amt, already exists

Answer 1

您需要 reset_index 中的参数 name，因为 Series 名称与 MultiIndex 之一的级别名称相同：

df_grouped.reset_index(name='count')

另一个解决方案是 rename Series 姓名：

print (df_grouped.rename('count').reset_index())

   A  Amt  count
0  1   30      4
1  1   20      3
2  1   40      2
3  2   40      3
4  2   10      2

更常见的解决方案 value_counts 是聚合 size:

df_grouped1 =  dftest.groupby(['A','Amt']).size().reset_index(name='count')

print (df_grouped1)
   A  Amt  count
0  1   20      3
1  1   30      4
2  1   40      2
3  2   10      2
4  2   40      3

pandas reset_index 在 groupby.value_counts() 之后

pandas reset_index after groupby.value_counts()

python

data-manipulation

dataframe

pandas

data-science