为不连续的日期调整 r 中 rollapply() 函数中的 "width" 参数

adjust "width" argument in rollapply() function in r for discontinuous dates

我有一个每日遥感数据的数据集。简而言之,它是过去 20 年的反射率(值介于 0 和 1 之间)。由于是遥感数据,部分日期因云或其他遮挡而没有数值。

我想在 R 的 zoo 包中使用 rollapply() 来检测时间序列中值在特定时间段(比如 2 周)内保持在 1.0 或在相同时间内保持在 0 的时间。

我有执行此操作的代码,但 rollapply() 函数中的宽度参数(上一段中提到的 2 周阈值)查看数据点而不是时间。因此它查看 14 个数据值而不是 14 天,由于云覆盖等缺少数据值,这可能跨越一个月

这是一个例子:

test_data <- data.frame(date = c("2000-01-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"), 
                        value = c(0, 1, 1, 1, 0))

test_data$date <- ymd(test_data$date)

select_first_1_value <- test_data %>%
  mutate(value = rollapply(value, width = 3, min, align = "left", fill = NA, na.rm = TRUE)) %>%
  filter(value == 1) %>%
  filter(row_number() == 1) %>%
  ungroup

当参数 width = 3 时,它起作用了。它发现 2000-01-02 是第一个至少有 3 个值出现值 = 1 的日期。但是,如果我将其更改为 14,它将不再有效,因为在此实例中它只能看到 5 个值。即使我写出另外 10 个等于 1 的值(总共 15 个),这也是不正确的,因为 2000 年 1 月 18 日的值 = 0,并且它只计算数据点而不计算日期。

但是当我们查看日期时,2000-01-03 和 2000-01-17 之间缺少日期。如果两者都是值 = 1,那么我想提取 2000-01-02 作为时间序列至少连续 14 天保持在 1 的第一个实例。在这里,我假设缺失天数的值为 1。

非常感谢任何帮助。谢谢。

您可以查看 runner 包,您可以在其中将 k 作为 days/weeks 等传递。请参阅此示例,sum [=14] 的最后 3 天=].

library(dplyr)
library(runner)

test_data %>%
  mutate(date = as.Date(date), 
         sum_val = runner(value, k = "3 days", idx = date, f = sum))

#        date value sum_val
#1 2000-01-01     0       0
#2 2000-01-02     1       1
#3 2000-01-03     1       2
#4 2000-01-17     1       1
#5 2000-01-18     0       1

注意第 4 行的值是 1(而不是 3),因为过去 3 天只出现了 1 个值。

这里确实有两个问题:

  1. 如何按日期而不是点数滚动。
  2. 假设缺失日期为 1,如何找到 1 的第一个 14 天。

请注意,(2) 不容易通过 (1) 解决,因为第一个系列的开始可能不是任何列出的日期!例如,假设我们将第一个日期更改为 1999 年 12 月 1 日,下面给出 test_data2。然后第一个周期的 14 个开始是 1999 年 12 月 2 日。它不是 test_data2 系列中的任何日期。

test_data2 <- data.frame(
  date = c("1999-12-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"), 
  value = c(0, 1, 1, 1, 0))

1) 我们需要做的不是按日期滚动,而是扩展系列以填充缺失的日期 zz 然后使用 rollapply.下面通过创建一个动物园系列(它还将日期转换为 Date class)然后将其转换为 ts class 来做到这一点。因为 ts class 只能表示规则间隔的系列,转换将填充缺失的日期并为它们提供 NA 值。我们可以用 1 填充它们,然后用 Date class index.

转换回 zoo
library(zoo)

z <- read.zoo(test_data2)
zz <- z |> as.ts() |> na.fill(1) |> as.zoo() |> aggregate(as.Date)
r <- rollapply(zz, 14, min, na.rm = TRUE, partial = TRUE, align = "left")
time(r)[which(r == 1)[1]]
## [1] "1999-12-02"

2) 另一种完全不涉及 rollapply 的解决方法是使用 rle。使用上面的 zz

ok <- with(rle(coredata(zz)), rep(lengths >= 14 & values == 1, lengths))
tt[which(ok)[1]]
## [1] "1999-12-02"

3) 另一种不使用 rollapply 的方法是提取 0 值行,然后仅保留与下一个 0 值行相差超过 14 天的行。最后取第一个这样的行并在它之后的一天使用日期。这假设在第一个 运行 14+ 行之前至少有一个 0 行。下面我们从问题中返回使用 test_data 尽管这也适用于 test_data2.

library(dplyr)
test_data %>%
  mutate(date = as.Date(date)) %>%
  filter(value == 0) %>%
  mutate(diff = as.numeric(lead(date) - date)) %>%
  filter(diff > 14) %>%
  head(1) %>%
  mutate(date = date + 1)
##         date value diff
## 1 2000-01-02     0   17

滚动应用日期而不是点数

4) 这个问题还讨论了在日期上使用 rollapply 而不是我们在这里解决的要点。如上所述,这实际上并没有解决找到第一个 14+ 的问题,所以我们展示了如何找到第一个日期 in the series 开始至少 14那些。通常,我们首先使用 findInterval 计算宽度向量,然后以通常的方式使用 rollapply,但使用这些宽度而不是使用标量宽度。这只涉及额外一行代码来计算宽度,w.

# using test_data from question
tt <- as.Date(test_data$date)

w <- findInterval(tt + 13, tt, rightmost.closed = TRUE) - seq_along(tt) + 1
r <- rollapply(test_data$value, w, min, fill = NA, na.rm = TRUE, align = "left")
tt[which(r == 1)[1]]
## [1] "2000-01-02"

?rollapply 中还有更多示例展示了如何按时间而不是点数滚动。

sqldf

5) 一种完全不同的方法来解决在系列 中找到前 14 个具有 日期的问题的方法是使用 SQL 自连接。它将别名为 atest 的第一个实例连接到第二个实例 b,将指定日期范围内的 b 的所有行和 a 的所有行关联起来,取最小值 value 使用这些最小值创建新列的人 min14。然后 having 子句仅保留 min14 为 1 的行,而 limit 子句保留第一行。然后我们在最后提取 date

library(sqldf)

test <- transform(test_data, date = as.Date(date))

sqldf("select a.*, min(b.value) min14
  from test a
  left join test b on b.date between a.date and a.date + 13
  group by a.rowid
  having min14 = 1
  limit 1")$date
## [1] "2000-01-02"