如何使用 pandas 根据自定义间隔提取时间序列的子集?

How do I extract a subset of a time series according to a custom interval using pandas?

我有一个一个月内每天 24 小时每一分钟的外汇价格数据集。然而,外汇市场仅在周日 17:00 至周五 16:00 期间实际开放,这些时间之间的数据只是用周五晚上的最后记录值填充。我正在尝试删除此填充,只留下市场开放数据。

我走了几十条死胡同,见树不见林。

根据指定的时间范围 return 数据子集非常简单:

import pandas as pd
df = pd.read_csv(tickdatafile,index_col='dtime',parse_dates=True)

# Return all rows for times between 12:00 and 16:00
df = df.between_time('12:00','16:00')

前两行从 csv 文件创建数据帧,分配 'dtime' 列作为索引并将其解析为日期时间对象。 第三行 return 是 12:00 和 16:00 之间的所有行,不管今天是什么日子。

一个简单的单行解决方案如下(伪代码):

df = df.between_customTimeRange('Sun 17:00','Fri 16:00')

但显然,这是行不通的。

有什么简单的东西我完全忽略了吗?

编辑: 我将 EKomarov 和 Alexander 的回答合并到以下解决方案中:

import pandas as pd
df = pd.read_csv(tickdatafile,index_col='dtime',parse_dates=True)

mask = df[ ( (   df.index.weekday == 6 ) & ( df.index.hour < 17 ) )# Sunday pre 17:00
         |   (   df.index.weekday == 5 )                           # All of Saturday
         | ( (   df.index.weekday == 4 )                           # Friday
           &                         (     ( df.index.hour >= 16 ) # Friday 16.00 onwards
                                     &  ~( ( df.index.hour == 16 )
                                         & ( df.index.minute == 0 )# Exclude 16.00 itself
                                         )
                                     )
           )
         ]

df = df[~df.index.isin(mask.index)] # return all data not in mask
df.to_csv(tradingdaysonly) 

这是一个可能的解决方案。

我会将问题简化为处理不需要的时间戳。那些 "wrong" 时间戳在周五 16:00 和周日 17:00 之间。

假设你有

data = pd.Series( np.random.randn(100), index = pd.date_range('2015-04-01', periods = 100, freq = '6h') )

让我们找到 "wrong" 个时间戳:

    paddedTimestamps = ( ( (data.index.dayofweek == 4) & (data.index.time > datetime.time(16,0)) ) | 
                           (data.index.dayofweek == 5) | 
                         ( (data.index.dayofweek == 6) & (data.index.time < datetime.time(17,0)) ) )

现在 paddedTimestamps 包含时间戳为 "wrong" 的每个整数位置的 True,因此我们将其反转并查询数据:

nonPaddedData = data[~paddedTimestamps]

我使用与@EKomarov 相同的方法,但处理时间的方式不同。 Stamps 是您的 pd.Timestamp 索引。首先创建你不需要的 dates/times 的掩码,然后反转它。请注意,dayofweek 的索引为 Monday=0 和 Sunday=6。

mask = stamps[((stamps.dayofweek == 6) & (stamps.hour < 17))  # Sunday before 17:00
              | (stamps.dayofweek == 5)   # All of Saturday
              | ((stamps.dayofweek == 4)  # Friday after 16:00
                 & (stamps.hour >= 16) 
                 & ~((stamps.hour == 16) & (stamps.minute == 0)))]  # Exclude 16:00

stamps[~stamps.isin(mask)]