累积总和 Dataframe 的条件计数 - 遍历列

Question

我正在尝试根据每个值的符号计算数据帧内重置的累积和。这个想法是对每一列分别进行相同的练习。

例如，假设我有以下数据框：

df = pd.DataFrame({'A': [1,1,1,-1,-1,1,1,1,1,-1,-1,-1],'B':[1,1,-1,-1,-1,1,1,1,-1,-1,-1,1]},index=[0, 1, 2, 3,4,5,6,7,8,9,10,11])

对于每一列，我想计算累积和，直到发现符号发生变化；在这种情况下，总和应重置为 1。对于上面的示例，我期待以下结果：

df1=pd.DataFrame({'A_cumcount':[1,2,3,1,2,1,2,3,4,1,2,3],'B_cumcount':[1,2,1,2,3,1,2,3,1,2,3,4],index=[0,1,2,3,4,5,6,7,8,9,10,11]})

这里讨论了类似的问题：Pandas: conditional rolling count

我试过以下代码：

nb_col=len(df.columns) #number of columns in dataframe


for i in range(0,int(nb_col)): #Loop through the number of columns in the dataframe

    name=df.columns[i] #read the column name
    name=name+'_cumcount' 


    #add column for the calculation
    df=df.reindex(columns=np.append(df.columns.values, [name])) 

    df=df[df.columns[nb_col+i]]=df.groupby((df[df.columns[i]] != df[df.columns[i]].shift(1)).cumsum()).cumcount()+1

我的问题是，有没有办法避免这个 for 循环？所以我可以避免每次都附加一个新列并使计算速度更快。谢谢

收到的答复（一切正常）：来自@尼克松 df.apply(lambda x: x.groupby(x.diff().ne(0).cumsum()).cumcount()+1).add_suffix('_cumcount')

来自@jezrael df1 = (df.apply(lambda x: x.groupby((x != x.shift()).cumsum()).cumcount() + 1).add_suffix('_cumcount'))

来自@Scott Boston：

df.apply(lambda x: x.groupby(x.diff().bfill().ne(0).cumsum()).cumcount() + 1)

Answer 1

您可以通过执行 x.diff().ne(0).cumsum() 并在组上使用 cumcount 来按序列中发生变化的位置分组：

df.apply(lambda x: x.groupby(x.diff().ne(0).cumsum())
                    .cumcount()+1).add_suffix('_cumcount')

        A_cumcount  B_cumcount
0            1           1
1            2           2
2            3           1
3            1           2
4            2           3
5            1           1
6            2           2
7            3           3
8            4           1
9            1           2
10           2           3
11           3           1

Answer 2

你可以试试这个：

df.apply(lambda x: x.groupby(x.diff().bfill().ne(0).cumsum()).cumcount() + 1)

输出：

Answer 3

我认为 pandas 需要循环，例如通过 apply:

df1 = (df.apply(lambda x: x.groupby((x != x.shift()).cumsum()).cumcount() + 1)
         .add_suffix('_cumcount'))
print (df1)
    A_cumcount  B_cumcount
0            1           1
1            2           2
2            3           1
3            1           2
4            2           3
5            1           1
6            2           2
7            3           3
8            4           1
9            1           2
10           2           3
11           3           1

累积总和 Dataframe 的条件计数 - 遍历列

Conditional count of cumulative sum Dataframe - Loop through columns

loops

dataframe

pandas

cumsum