按州和日期分组,按月分组日期 pandas 和镶木地板文件

Group by state and date with grouping date by months with pandas and parquet files

在我的镶木地板文件数据集中,我有不同的数据集列。我感兴趣的是状态、ID 和日期。我想按州对数据进行分组,然后每月计算不同的 ID。但是,日期已经是 YYYY-MM-DD 格式,所以当我 运行 我的查询时:

df.groupby(["state", "date"])["id"].count()

我的结果是针对每个州的每个日期分别计算的。

我如何修改它以在不更改整个数据文件的情况下分别迭代几个月?

由于您没有提供用于测试的虚拟数据,因此您可以尝试:

首先确保你的日期列是日期时间类型:

df['date']=pd.to_datetime(df['date'])

然后:

out=df.groupby(['state',pd.Grouper(key='date',freq='m')])['id'].nunique()

out=df.groupby(['state',df.pop('date').dt.floor('m')])['id'].nunique()