根据 365 天 window 创建 10,000 个日期 data.frames 和假年份

Question

这是我的时间段范围：

start_day = as.Date('1974-01-01', format = '%Y-%m-%d')
end_day = as.Date('2014-12-21', format = '%Y-%m-%d')

df = as.data.frame(seq(from = start_day, to = end_day, by = 'day'))
colnames(df) = 'date'

我需要创建 10,000 个 data.frames，每一个都有 365 天的不同假年份。这意味着 10,000 个 data.frames 中的每一个都需要有不同的开始和结束时间。

总共 df 有 14,965 天，除以 365 天 = 41 年。换句话说，df 需要按 41 年（每 365 天）分组 10,000 次不同的 。每年的开始必须是随机的，所以它可以是 1974-10-03、1974-08-30、1976-01-03 等...最后的剩余日期 df 需要与开始的一起回收。

分组的假年份需要出现在 data.frames 的第 3 列中。

我会将所有 data.frames 放入列表中，但我不知道如何创建生成 10,000 个不同年份开始日期的函数，然后将每个 data.frame 分组为 365 天 window 41次.

谁能帮帮我？

@gringer 给出了一个很好的答案，但它只解决了 90% 的问题：

dates.df <- data.frame(replicate(10000, seq(sample(df$date, 1),
                                            length.out=365, by="day"),
                                 simplify=FALSE))
colnames(dates.df) <- 1:10000

我需要的是 10,000 列和 14,965 行，这些列的日期取自 df，需要在到达 df 结束时最终回收。

我尝试更改 length.out = 14965 但 R 不回收日期。

另一种选择是更改 length.out = 1 并最终 通过保持相同的顺序为每一列添加剩余的 df 行：

dates.df <- data.frame(replicate(10000, seq(sample(df$date, 1),
                                            length.out=1, by="day"),
                                 simplify=FALSE))
colnames(dates.df) <- 1:10000

如何将剩余的 df 行添加到每个列？

Answer 1

如果未指定 to 参数，seq 方法也有效，因此它可用于生成从特定日期开始的特定天数：

> seq(from=df$date[20], length.out=10, by="day")
[1] "1974-01-20" "1974-01-21" "1974-01-22" "1974-01-23" "1974-01-24"
[6] "1974-01-25" "1974-01-26" "1974-01-27" "1974-01-28" "1974-01-29"

当与 replicate 和 sample 结合使用时，我认为这将在列表中给出您想要的内容：

> replicate(2,seq(sample(df$date, 1), length.out=10, by="day"), simplify=FALSE)
[[1]]
 [1] "1985-07-24" "1985-07-25" "1985-07-26" "1985-07-27" "1985-07-28"
 [6] "1985-07-29" "1985-07-30" "1985-07-31" "1985-08-01" "1985-08-02"

[[2]]
 [1] "2012-10-13" "2012-10-14" "2012-10-15" "2012-10-16" "2012-10-17"
 [6] "2012-10-18" "2012-10-19" "2012-10-20" "2012-10-21" "2012-10-22"

没有 simplify=FALSE 参数，它会生成一个整数数组（即 R 的日期内部表示），转换回日期有点棘手。一种稍微复杂的方法是生成 Date 输出，即在未简化的 replicate 结果上使用 data.frame。下面是一个示例，它将生成一个包含 10,000 列的数据框，每列包含 365 个日期（在我的计算机上生成大约需要 5 秒）：

dates.df <- data.frame(replicate(10000, seq(sample(df$date, 1),
                                            length.out=365, by="day"),
                                 simplify=FALSE));
colnames(dates.df) <- 1:10000;
> dates.df[1:5,1:5];
           1          2          3          4          5
1 1988-09-06 1996-05-30 1987-07-09 1974-01-15 1992-03-07
2 1988-09-07 1996-05-31 1987-07-10 1974-01-16 1992-03-08
3 1988-09-08 1996-06-01 1987-07-11 1974-01-17 1992-03-09
4 1988-09-09 1996-06-02 1987-07-12 1974-01-18 1992-03-10
5 1988-09-10 1996-06-03 1987-07-13 1974-01-19 1992-03-11

要使日期环绕工作正常，可以对原始数据框进行轻微修改，将其自身的副本粘贴到末尾：

df <- as.data.frame(c(seq(from = start_day, to = end_day, by = 'day'),
                      seq(from = start_day, to = end_day, by = 'day')));
colnames(df) <- "date";

这更容易为下游编码；另一种方法是对每个结果列使用双 seq，并对 start/end 和 if 语句进行额外计算以处理边界情况。

现在不是进行日期运算，而是原始数据框（已完成运算）的结果列子集。从帧的前半部分中的一个日期开始，然后选择接下来的 14965 个值。我正在使用 nrow(df)/2 代替更通用的代码：

dates.df <-
    as.data.frame(lapply(sample.int(nrow(df)/2, 10000),
                         function(startPos){
                             df$date[startPos:(startPos+nrow(df)/2-1)];
                         }));
colnames(dates.df) <- 1:10000;

>dates.df[c(1:5,(nrow(dates.df)-5):nrow(dates.df)),1:5];
               1          2          3          4          5
1     1988-10-21 1999-10-18 2009-04-06 2009-01-08 1988-12-28
2     1988-10-22 1999-10-19 2009-04-07 2009-01-09 1988-12-29
3     1988-10-23 1999-10-20 2009-04-08 2009-01-10 1988-12-30
4     1988-10-24 1999-10-21 2009-04-09 2009-01-11 1988-12-31
5     1988-10-25 1999-10-22 2009-04-10 2009-01-12 1989-01-01
14960 1988-10-15 1999-10-12 2009-03-31 2009-01-02 1988-12-22
14961 1988-10-16 1999-10-13 2009-04-01 2009-01-03 1988-12-23
14962 1988-10-17 1999-10-14 2009-04-02 2009-01-04 1988-12-24
14963 1988-10-18 1999-10-15 2009-04-03 2009-01-05 1988-12-25
14964 1988-10-19 1999-10-16 2009-04-04 2009-01-06 1988-12-26
14965 1988-10-20 1999-10-17 2009-04-05 2009-01-07 1988-12-27

现在这需要的时间少了一些，大概是因为日期值已经预先计算好了。

Answer 2

试试这个，改用子集：

start_day = as.Date('1974-01-01', format = '%Y-%m-%d')
end_day = as.Date('2014-12-21', format = '%Y-%m-%d')

date_vec <- seq.Date(from=start_day, to=end_day, by="day")

现在，我创建了一个足够长的向量，以便以后可以使用简单的子集化：

date_vec2 <- rep(date_vec,2)

现在，为 100 个实例创建随机开始日期（为您的应用程序将其替换为 10000）：

random_starts <- sample(1:14965, 100)

现在，只需将 date_vec2 子集化为您想要的长度，即可创建日期列表：

dates <- lapply(random_starts, function(x) date_vec2[x:(x+14964)])
date_df <- data.frame(dates)
names(date_df) <- 1:100

date_df[1:5,1:5]

           1          2          3          4          5
1 1997-05-05 2011-12-10 1978-11-11 1980-09-16 1989-07-24
2 1997-05-06 2011-12-11 1978-11-12 1980-09-17 1989-07-25
3 1997-05-07 2011-12-12 1978-11-13 1980-09-18 1989-07-26
4 1997-05-08 2011-12-13 1978-11-14 1980-09-19 1989-07-27
5 1997-05-09 2011-12-14 1978-11-15 1980-09-20 1989-07-28

根据 365 天 window 创建 10,000 个日期 data.frames 和假年份

Create 10,000 date data.frames with fake years based on 365 days window

r

date

dataframe

grouping

montecarlo