填充缺少日期的数据集(以小时为单位)
Populate dataset with missing dates (in hour)
我有一个每小时收集股票期权数据的数据集。不幸的是,由于一些维护等原因,一些日期和时间丢失了。
这是一个带有数据框 (Dates_,Price) 的示例,如您所见,“2018-02-08”这一天我们只有 2 小时可用,而不是 24 小时。
有没有办法找到丢失的日期?并用缺失的日期填充数据集(在其他列中添加 NA)?
我试过这个方法来找到丢失的日期
pd.date_range(df.Date_.min(), df.Date_.max()).difference(df.Date_)
但这不适用于时间,因为它在今天早上 6 点只返回了 1 个缺失的小时。
使用重采样有效
应用(lambda x : x.set_index('Date_').resample('H')
我有一个每小时收集股票期权数据的数据集。不幸的是,由于一些维护等原因,一些日期和时间丢失了。
这是一个带有数据框 (Dates_,Price) 的示例,如您所见,“2018-02-08”这一天我们只有 2 小时可用,而不是 24 小时。
有没有办法找到丢失的日期?并用缺失的日期填充数据集(在其他列中添加 NA)?
我试过这个方法来找到丢失的日期
pd.date_range(df.Date_.min(), df.Date_.max()).difference(df.Date_)
但这不适用于时间,因为它在今天早上 6 点只返回了 1 个缺失的小时。
使用重采样有效
应用(lambda x : x.set_index('Date_').resample('H')