Dataframe 的多项操作
Multiple operations on Dataframe
我正在尝试按 one/two 列分组,对第四列的值求和并在第五列中求平均值。每个操作都写在单独的输出中。甚至开始都感觉有点棘手。
输入:否 header,超过 10 万行
StartTime, EndTime,Day,SumCount,UniqueCount
00:00:00,01:00:00,Mon,13534,594
01:00:00,02:00:00,Mon,16674,626
02:00:00,03:00:00,Mon,23736,671
03:00:00,04:00:00,Mon,16977,671
00:00:00,01:00:00,Tue,17262,747
01:00:00,02:00:00,Tue,19072,777
02:00:00,03:00:00,Tue,18275,785
03:00:00,04:00:00,Tue,13589,757
04:00:00,05:00:00,Tue,16053,735
05:00:00,06:00:00,Tue,11440,636
我要找的是
- Groupby
StartTime
& EndTime
找到 SumCount
的总和和 UniqueCount
的中位数
- Groupby
Day
找到 SumCount
的总和和 UniqueCount
的中位数
我不知道如何将两种类型的 groupby 放在一个程序中并获得两个不同的输出。
尝试:
df.groupby(['StartTime', 'EndTime']).agg({'SumCount': ['sum'],
'UniqueCount': {'median': lambda x: np.median(x).round(0)}})
或者:
df.groupby(['Day']).agg({'SumCount': ['sum'],
'UniqueCount': {'median': lambda x: np.median(x).round(0)}})
我正在尝试按 one/two 列分组,对第四列的值求和并在第五列中求平均值。每个操作都写在单独的输出中。甚至开始都感觉有点棘手。
输入:否 header,超过 10 万行
StartTime, EndTime,Day,SumCount,UniqueCount
00:00:00,01:00:00,Mon,13534,594
01:00:00,02:00:00,Mon,16674,626
02:00:00,03:00:00,Mon,23736,671
03:00:00,04:00:00,Mon,16977,671
00:00:00,01:00:00,Tue,17262,747
01:00:00,02:00:00,Tue,19072,777
02:00:00,03:00:00,Tue,18275,785
03:00:00,04:00:00,Tue,13589,757
04:00:00,05:00:00,Tue,16053,735
05:00:00,06:00:00,Tue,11440,636
我要找的是
- Groupby
StartTime
&EndTime
找到SumCount
的总和和UniqueCount
的中位数
- Groupby
Day
找到SumCount
的总和和UniqueCount
的中位数
我不知道如何将两种类型的 groupby 放在一个程序中并获得两个不同的输出。
尝试:
df.groupby(['StartTime', 'EndTime']).agg({'SumCount': ['sum'],
'UniqueCount': {'median': lambda x: np.median(x).round(0)}})
或者:
df.groupby(['Day']).agg({'SumCount': ['sum'],
'UniqueCount': {'median': lambda x: np.median(x).round(0)}})