groupby 显示每人每天的时间 pandas
groupby to display time per day per person pandas
我正在尝试按 ID、时间戳过滤此数据框,我的第三列是条目之间的时间差。我可以让它显示所有天每个 ID 的总和,但无法让它显示每个 ID 每天的总和。
import datetime
import pandas as pd
timestamps = [
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 1
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 1, 11, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 2, 11, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 2, 11, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 4, 10, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 5, 12, 0, 0, 0) # person 3
]
df1 = pd.DataFrame({'person': [1, 2, 1, 3, 2, 1, 3, 2], 'timestamp': timestamps})
df1['new'] = df1.groupby('person').timestamp.transform(pd.Series.diff).dropna()
df1.groupby('person')['timestamp','new'].sum()
这只是给我总数,而不是每天。我如何每天合并它们?
您可以像这样在 groupby 条件中包含“时间戳”列的日期部分:
>>> df1.groupby(["person", df1.timestamp.dt.date])["new"].sum()
此外,如果您愿意,可以使用时间戳中的日期创建一个新列,然后按该列分组:
>>> df1["date"] = df1["timestamp"].dt.date
>>> df1.groupby(["person", "date"])["new"].sum()
您可以选择在最后 .reset_index()
将您的组值包含在新列中。
我正在尝试按 ID、时间戳过滤此数据框,我的第三列是条目之间的时间差。我可以让它显示所有天每个 ID 的总和,但无法让它显示每个 ID 每天的总和。
import datetime
import pandas as pd
timestamps = [
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 1
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 1, 11, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 2, 11, 0, 0, 0), # person 2
datetime.datetime(2018, 1, 1, 10, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 2, 11, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 4, 10, 0, 0, 0), # person 3
datetime.datetime(2018, 1, 5, 12, 0, 0, 0) # person 3
]
df1 = pd.DataFrame({'person': [1, 2, 1, 3, 2, 1, 3, 2], 'timestamp': timestamps})
df1['new'] = df1.groupby('person').timestamp.transform(pd.Series.diff).dropna()
df1.groupby('person')['timestamp','new'].sum()
这只是给我总数,而不是每天。我如何每天合并它们?
您可以像这样在 groupby 条件中包含“时间戳”列的日期部分:
>>> df1.groupby(["person", df1.timestamp.dt.date])["new"].sum()
此外,如果您愿意,可以使用时间戳中的日期创建一个新列,然后按该列分组:
>>> df1["date"] = df1["timestamp"].dt.date
>>> df1.groupby(["person", "date"])["new"].sum()
您可以选择在最后 .reset_index()
将您的组值包含在新列中。