Pandas groupby，删除连续的重复项和 return 作为数据框

Question

我得到了一个数据框，我想按列 'a' 进行分组，然后将组内的连续重复项删除到 return 个数据框。

例如，如果数据帧是

df = pd.DataFrame({'a':[11,11,11,11,12,12,12,12,12], 'b':['The Effect','effective','more','more','more','b','b','b','a'], 'c':[1,2,3,4,5,6,7,8,9]})

>>> df
    a           b  c
0  11  The Effect  1
1  11   effective  2
2  11        more  3
3  11        more  4
4  12        more  5
5  12           b  6
6  12           b  7
7  12           b  8
8  12           a  9

我的输出应该是

>>> df
    a           b  c
0  11  The Effect  1
1  11   effective  2
2  11        more  3
3  12        more  5
4  12           b  6
5  12           a  9

实际上，数据框很大，包含超过 1200 万个条目。

Answer 1

您似乎想将您的数据与其移位进行比较：

d = df[['a','b']]
df[d.ne(d.shift()).any(1)]

输出：

    a           b  c
0  11  The Effect  1
1  11   effective  2
2  11        more  3
4  12        more  5
5  12           b  6
8  12           a  9

Pandas groupby，删除连续的重复项和 return 作为数据框

Pandas groupby, drop consecutive duplicates and return as dataframe

pandas

dataframe

pandas-groupby

python-3.8