Dataframe 的多项操作

Multiple operations on Dataframe

我正在尝试按 one/two 列分组,对第四列的值求和并在第五列中求平均值。每个操作都写在单独的输出中。甚至开始都感觉有点棘手。

输入:否 header,超过 10 万行

StartTime, EndTime,Day,SumCount,UniqueCount
00:00:00,01:00:00,Mon,13534,594
01:00:00,02:00:00,Mon,16674,626
02:00:00,03:00:00,Mon,23736,671
03:00:00,04:00:00,Mon,16977,671
00:00:00,01:00:00,Tue,17262,747
01:00:00,02:00:00,Tue,19072,777
02:00:00,03:00:00,Tue,18275,785
03:00:00,04:00:00,Tue,13589,757
04:00:00,05:00:00,Tue,16053,735
05:00:00,06:00:00,Tue,11440,636

我要找的是

  1. Groupby StartTime & EndTime 找到 SumCount 的总和和 UniqueCount
  2. 的中位数
  3. Groupby Day找到 SumCount 的总和和 UniqueCount
  4. 的中位数

我不知道如何将两种类型的 groupby 放在一个程序中并获得两个不同的输出。

尝试:

df.groupby(['StartTime', 'EndTime']).agg({'SumCount': ['sum'],
                             'UniqueCount': {'median': lambda x: np.median(x).round(0)}})

或者:

df.groupby(['Day']).agg({'SumCount': ['sum'],
                         'UniqueCount': {'median': lambda x: np.median(x).round(0)}})