将缺少的时间戳行添加到数据框

Add missing timestamp row to a dataframe

我有一个数据框,其中包含每天以两小时为间隔测量的数据,但是缺少一些时间间隔。我的数据集如下所示:

2020-12-01 08:00:00 145.9
2020-12-01 10:00:00 100.0
2020-12-01 16:00:00 99.3
2020-12-01 18:00:00 91.0

我正在尝试插入缺失的时间间隔并用 Nan 填充它们的值。

2020-12-01 08:00:00 145.9
2020-12-01 10:00:00 100.0
2020-12-01 12:00:00 Nan
2020-12-01 14:00:00 Nan
2020-12-01 16:00:00 99.3
2020-12-01 18:00:00 91.0

对于如何在 python 中实现此目标的任何帮助,我将不胜感激,因为我是刚开始使用 python

的新手

您可以尝试以下方法:

我为此使用了 datetime 和 timedelta,

from datetime import datetime, timedelta

# Asuming that the data is given like below.
data = ['2020-12-01 08:00:00 145.9',
'2020-12-01 10:00:00 100.0',
'2020-12-01 16:00:00 99.3',
'2020-12-01 18:00:00 91.0']

# initialize the start time using data[0]
date = data[0].split()[0].split('-')
time = data[0].split()[1].split(':')
start = datetime(int(date[0]), int(date[1]), int(date[2]), int(time[0]), int(time[1]), int(time[2]))

newdata = []
newdata.append(data[0])

i = 1
while i < len(data):
    cur = start
    nxt = start + timedelta(hours=2)
    
    if (str(nxt) != (data[i].split()[0] + ' ' + data[i].split()[1])):
        newdata.append(str(nxt) + ' NaN')
    else:
        newdata.append(data[i])
        i+=1
        
    start = nxt
    
newdata

注意: temedelta(hours=2) 将在现有时间基础上增加 2 小时。

假设你的 df 看起来像

              datetime  value
0  2020-12-01T08:00:00  145.9
1  2020-12-01T10:00:00  100.0
2  2020-12-01T16:00:00   99.3
3  2020-12-01T18:00:00   91.0

确保 datetime 列是 dtype datetime;

df['datetime'] = pd.to_datetime(df['datetime'])

以便您现在可以重新采样到 2 小时频率:

df.resample('2H', on='datetime').mean()

                     value
datetime                  
2020-12-01 08:00:00  145.9
2020-12-01 10:00:00  100.0
2020-12-01 12:00:00    NaN
2020-12-01 14:00:00    NaN
2020-12-01 16:00:00   99.3
2020-12-01 18:00:00   91.0

请注意,如果您的 df 已有日期时间索引,则无需设置 on= 关键字。重采样产生的 df 将具有日期时间索引。

另请注意,我将 .mean() 用作 aggfunc,这意味着如果您在两个小时的间隔内有多个值,您将得到平均值。

创建 DatetimeIndex 并使用 DataFrame.asfreq:

print (df)

                  date    val
0  2020-12-01 08:00:00  145.9
1  2020-12-01 10:00:00  100.0
2  2020-12-01 16:00:00   99.3
3  2020-12-01 18:00:00   91.0

df['date'] = pd.to_datetime(df['date'])

df = df.set_index('date').asfreq('2H')

print (df)
                       val
date                      
2020-12-01 08:00:00  145.9
2020-12-01 10:00:00  100.0
2020-12-01 12:00:00    NaN
2020-12-01 14:00:00    NaN
2020-12-01 16:00:00   99.3
2020-12-01 18:00:00   91.0