如何聚合 Pandas DataFrame 行,在 Python 中的日期时间索引值之间具有一致的时间增量?

How to aggregate Pandas DataFrame rows with consistent timedelta between Datetime index values in Python?

我有一个 Pandas DataFrame,它以 2 分钟的间隔进行连续测量,我已将其过滤为仅包含某些值。此过程在 DataFrame 中创建子组,其测量间隔为 2 分钟。我想聚合每个子组,以便获得每个子组的平均值,并根据相应组的最后一个日期时间索引对平均值进行索引。例如:


2020-06-09 08:44:00    1
2020-06-09 08:46:00    2
2020-06-09 08:48:00    3
2020-06-09 08:50:00    4
2020-06-09 09:06:00    10
2020-06-09 09:08:00    12
2020-06-09 09:10:00    14
2020-06-09 10:14:00    20
2020-06-09 10:16:00    10
2020-06-09 10:18:00    5
2020-06-09 10:20:00    2


2020-06-09 08:50:00    2.5
2020-06-09 09:10:00    12
2020-06-09 10:20:00    9.25

在原始DataFrame中,有三个子组,其中索引之间的间隔保持恒定为2分钟。新的 DataFrame 将只有最后一个索引具有平均值(或任何聚合)值。


我们可以将日期时间索引变成一个列,根据那些取last时间值和mean列值的值取diff between rows to find the relative time difference between values. Create a boolean mask where values are gt the expected time period and groupby agg。然后恢复索引:

# Make the index a Series which is has more computation options
new_df = df.reset_index()
new_df = (
        # Find where index does not follow pattern of 2 minute intervals
        # Get the last index value and the average of the column values
        'index': 'last', 'col': 'mean'
    }).set_index('index').rename_axis(index=None)  # restore index


2020-06-09 08:50:00   2.50
2020-06-09 09:10:00  12.00
2020-06-09 10:20:00   9.25


import pandas as pd

df = pd.DataFrame({
    'col': [1, 2, 3, 4, 10, 12, 14, 20, 10, 5, 2]
}, index=pd.to_datetime(
    ['2020-06-09 08:44:00', '2020-06-09 08:46:00',
     '2020-06-09 08:48:00', '2020-06-09 08:50:00',
     '2020-06-09 09:06:00', '2020-06-09 09:08:00',
     '2020-06-09 09:10:00', '2020-06-09 10:14:00',
     '2020-06-09 10:16:00', '2020-06-09 10:18:00',
     '2020-06-09 10:20:00']


2020-06-09 08:44:00    1
2020-06-09 08:46:00    2
2020-06-09 08:48:00    3
2020-06-09 08:50:00    4
2020-06-09 09:06:00   10
2020-06-09 09:08:00   12
2020-06-09 09:10:00   14
2020-06-09 10:14:00   20
2020-06-09 10:16:00   10
2020-06-09 10:18:00    5
2020-06-09 10:20:00    2