根据日期从一个数据框中输出各种子集

Outputting various subsets from one data frame based on dates

我想根据从单独的数据框定义的日期序列创建大量数据子集。例如,一个数据框将具有跨多年的日期和每日记录值。我在下面创建了一个假设的数据框。我想根据其他地方定义的开始和结束日期从这个数据框中进行各种子集。

set.seed(24)
df1 <- as.data.frame(matrix(sample(0:3000, 300*10, replace=TRUE), ncol=1))
df2 <- as.data.frame(seq(as.Date("2004/1/1"), by = "day", length.out = 3000))
Example <- cbind(df1,df2)

开始日期和结束日期对应于特定样本之前 1 年的序列。因此,如果我在 2006 年 5 月 18 日采样,我希望所有值介于 2005 年 5 月 17 日 - 2006 年 5 月 17 日之间。我在下面通过 Lubridate 包创建了一系列示例日期。

Sample_dates<- as.data.frame(dmy(c("18/05/2006","07/05/2010","01/04/2011",
         "26/10/2006","24/09/2010","27/09/2011")))
End_dates <- (Sample_dates)-days(1) 
Start_dates <- (End_dates)-years(1)
Sequence_dates <- cbind(Start_dates,End_dates)
colnames(Sequence_dates) <- c("Startdates", "Enddates")

随后,我应该根据第二个数据帧 (Sequence_dates) 中定义的日期序列从原始数据帧(示例)中获得 6 个子集输出。实际上,存在更多的样本日期,因此在一个编码部分中识别这些开始和结束日期的功能比手动选择每个开始和结束日期更可取。我认为循环函数似乎很有可能,我根据在其他地方找到的类似(更复杂)post 尝试了以下方法。 For() loop to ID dates that are between others and calculate a mean value

for (i in 1:nrow(Sequence_dates)){
Selected_dates[i] = is.between(Sequence_dates$Startdates[i], Discharge_dates$Enddates[i])
} 

但是,R 无法识别 is.between,我很欣赏代码可能草率,因为我以前从未进行过循环。对此的任何帮助将不胜感激!

詹姆斯

我可能会这样做。

似乎只需要结束日期,因为开始日期仅早于 1 年。

使用 lapply() 循环遍历所有结束日期。

子集化主要通过 difftime() 过滤两个日期之间的任何非零时间差来完成。

set.seed(24)
df1 <- as.data.frame(matrix(sample(0:3000, 300*10, replace=TRUE), ncol=1))
df2 <- as.data.frame(seq(as.Date("2004/1/1"), by = "day", length.out = 3000))

df <- data.frame(df1, df2)
names(df) <- c("val", "date")

library(lubridate)
ends <- c(dmy(c("18/05/2006","07/05/2010","01/04/2011","26/10/2006","24/09/2010","27/09/2011"))) - days(1)

subs <- lapply(ends, function(x) {
    df[difftime(df$date, x - years(1)) >= 0 & difftime(df$date, x) <= 0, ]
})

length(subs)
# [1] 6
min(subs[[1]]$date)
# [1] "2005-05-17"
max(subs[[1]]$date)
# [1] "2006-05-17"