为不连续的日期调整 r 中 rollapply() 函数中的 "width" 参数
adjust "width" argument in rollapply() function in r for discontinuous dates
我有一个每日遥感数据的数据集。简而言之,它是过去 20 年的反射率(值介于 0 和 1 之间)。由于是遥感数据,部分日期因云或其他遮挡而没有数值。
我想在 R 的 zoo 包中使用 rollapply() 来检测时间序列中值在特定时间段(比如 2 周)内保持在 1.0 或在相同时间内保持在 0 的时间。
我有执行此操作的代码,但 rollapply() 函数中的宽度参数(上一段中提到的 2 周阈值)查看数据点而不是时间。因此它查看 14 个数据值而不是 14 天,由于云覆盖等缺少数据值,这可能跨越一个月
这是一个例子:
test_data <- data.frame(date = c("2000-01-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"),
value = c(0, 1, 1, 1, 0))
test_data$date <- ymd(test_data$date)
select_first_1_value <- test_data %>%
mutate(value = rollapply(value, width = 3, min, align = "left", fill = NA, na.rm = TRUE)) %>%
filter(value == 1) %>%
filter(row_number() == 1) %>%
ungroup
当参数 width = 3 时,它起作用了。它发现 2000-01-02 是第一个至少有 3 个值出现值 = 1 的日期。但是,如果我将其更改为 14,它将不再有效,因为在此实例中它只能看到 5 个值。即使我写出另外 10 个等于 1 的值(总共 15 个),这也是不正确的,因为 2000 年 1 月 18 日的值 = 0,并且它只计算数据点而不计算日期。
但是当我们查看日期时,2000-01-03 和 2000-01-17 之间缺少日期。如果两者都是值 = 1,那么我想提取 2000-01-02 作为时间序列至少连续 14 天保持在 1 的第一个实例。在这里,我假设缺失天数的值为 1。
非常感谢任何帮助。谢谢。
您可以查看 runner
包,您可以在其中将 k
作为 days/weeks 等传递。请参阅此示例,sum
[=14] 的最后 3 天=].
library(dplyr)
library(runner)
test_data %>%
mutate(date = as.Date(date),
sum_val = runner(value, k = "3 days", idx = date, f = sum))
# date value sum_val
#1 2000-01-01 0 0
#2 2000-01-02 1 1
#3 2000-01-03 1 2
#4 2000-01-17 1 1
#5 2000-01-18 0 1
注意第 4 行的值是 1(而不是 3),因为过去 3 天只出现了 1 个值。
这里确实有两个问题:
- 如何按日期而不是点数滚动。
- 假设缺失日期为 1,如何找到 1 的第一个 14 天。
请注意,(2) 不容易通过 (1) 解决,因为第一个系列的开始可能不是任何列出的日期!例如,假设我们将第一个日期更改为 1999 年 12 月 1 日,下面给出 test_data2
。然后第一个周期的 14 个开始是 1999 年 12 月 2 日。它不是 test_data2
系列中的任何日期。
test_data2 <- data.frame(
date = c("1999-12-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"),
value = c(0, 1, 1, 1, 0))
1) 我们需要做的不是按日期滚动,而是扩展系列以填充缺失的日期 zz
然后使用 rollapply
.下面通过创建一个动物园系列(它还将日期转换为 Date class)然后将其转换为 ts class 来做到这一点。因为 ts class 只能表示规则间隔的系列,转换将填充缺失的日期并为它们提供 NA 值。我们可以用 1 填充它们,然后用 Date class index.
转换回 zoo
library(zoo)
z <- read.zoo(test_data2)
zz <- z |> as.ts() |> na.fill(1) |> as.zoo() |> aggregate(as.Date)
r <- rollapply(zz, 14, min, na.rm = TRUE, partial = TRUE, align = "left")
time(r)[which(r == 1)[1]]
## [1] "1999-12-02"
2) 另一种完全不涉及 rollapply
的解决方法是使用 rle
。使用上面的 zz
ok <- with(rle(coredata(zz)), rep(lengths >= 14 & values == 1, lengths))
tt[which(ok)[1]]
## [1] "1999-12-02"
3) 另一种不使用 rollapply 的方法是提取 0 值行,然后仅保留与下一个 0 值行相差超过 14 天的行。最后取第一个这样的行并在它之后的一天使用日期。这假设在第一个 运行 14+ 行之前至少有一个 0 行。下面我们从问题中返回使用 test_data
尽管这也适用于 test_data2
.
library(dplyr)
test_data %>%
mutate(date = as.Date(date)) %>%
filter(value == 0) %>%
mutate(diff = as.numeric(lead(date) - date)) %>%
filter(diff > 14) %>%
head(1) %>%
mutate(date = date + 1)
## date value diff
## 1 2000-01-02 0 17
滚动应用日期而不是点数
4) 这个问题还讨论了在日期上使用 rollapply
而不是我们在这里解决的要点。如上所述,这实际上并没有解决找到第一个 14+ 的问题,所以我们展示了如何找到第一个日期 in the series 开始至少 14那些。通常,我们首先使用 findInterval
计算宽度向量,然后以通常的方式使用 rollapply
,但使用这些宽度而不是使用标量宽度。这只涉及额外一行代码来计算宽度,w
.
# using test_data from question
tt <- as.Date(test_data$date)
w <- findInterval(tt + 13, tt, rightmost.closed = TRUE) - seq_along(tt) + 1
r <- rollapply(test_data$value, w, min, fill = NA, na.rm = TRUE, align = "left")
tt[which(r == 1)[1]]
## [1] "2000-01-02"
?rollapply
中还有更多示例展示了如何按时间而不是点数滚动。
sqldf
5) 一种完全不同的方法来解决在系列 中找到前 14 个具有 日期的问题的方法是使用 SQL 自连接。它将别名为 a
的 test
的第一个实例连接到第二个实例 b
,将指定日期范围内的 b 的所有行和 a
的所有行关联起来,取最小值 value
使用这些最小值创建新列的人 min14
。然后 having
子句仅保留 min14
为 1 的行,而 limit
子句保留第一行。然后我们在最后提取 date
。
library(sqldf)
test <- transform(test_data, date = as.Date(date))
sqldf("select a.*, min(b.value) min14
from test a
left join test b on b.date between a.date and a.date + 13
group by a.rowid
having min14 = 1
limit 1")$date
## [1] "2000-01-02"
我有一个每日遥感数据的数据集。简而言之,它是过去 20 年的反射率(值介于 0 和 1 之间)。由于是遥感数据,部分日期因云或其他遮挡而没有数值。
我想在 R 的 zoo 包中使用 rollapply() 来检测时间序列中值在特定时间段(比如 2 周)内保持在 1.0 或在相同时间内保持在 0 的时间。
我有执行此操作的代码,但 rollapply() 函数中的宽度参数(上一段中提到的 2 周阈值)查看数据点而不是时间。因此它查看 14 个数据值而不是 14 天,由于云覆盖等缺少数据值,这可能跨越一个月
这是一个例子:
test_data <- data.frame(date = c("2000-01-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"),
value = c(0, 1, 1, 1, 0))
test_data$date <- ymd(test_data$date)
select_first_1_value <- test_data %>%
mutate(value = rollapply(value, width = 3, min, align = "left", fill = NA, na.rm = TRUE)) %>%
filter(value == 1) %>%
filter(row_number() == 1) %>%
ungroup
当参数 width = 3 时,它起作用了。它发现 2000-01-02 是第一个至少有 3 个值出现值 = 1 的日期。但是,如果我将其更改为 14,它将不再有效,因为在此实例中它只能看到 5 个值。即使我写出另外 10 个等于 1 的值(总共 15 个),这也是不正确的,因为 2000 年 1 月 18 日的值 = 0,并且它只计算数据点而不计算日期。
但是当我们查看日期时,2000-01-03 和 2000-01-17 之间缺少日期。如果两者都是值 = 1,那么我想提取 2000-01-02 作为时间序列至少连续 14 天保持在 1 的第一个实例。在这里,我假设缺失天数的值为 1。
非常感谢任何帮助。谢谢。
您可以查看 runner
包,您可以在其中将 k
作为 days/weeks 等传递。请参阅此示例,sum
[=14] 的最后 3 天=].
library(dplyr)
library(runner)
test_data %>%
mutate(date = as.Date(date),
sum_val = runner(value, k = "3 days", idx = date, f = sum))
# date value sum_val
#1 2000-01-01 0 0
#2 2000-01-02 1 1
#3 2000-01-03 1 2
#4 2000-01-17 1 1
#5 2000-01-18 0 1
注意第 4 行的值是 1(而不是 3),因为过去 3 天只出现了 1 个值。
这里确实有两个问题:
- 如何按日期而不是点数滚动。
- 假设缺失日期为 1,如何找到 1 的第一个 14 天。
请注意,(2) 不容易通过 (1) 解决,因为第一个系列的开始可能不是任何列出的日期!例如,假设我们将第一个日期更改为 1999 年 12 月 1 日,下面给出 test_data2
。然后第一个周期的 14 个开始是 1999 年 12 月 2 日。它不是 test_data2
系列中的任何日期。
test_data2 <- data.frame(
date = c("1999-12-01", "2000-01-02", "2000-01-03", "2000-01-17", "2000-01-18"),
value = c(0, 1, 1, 1, 0))
1) 我们需要做的不是按日期滚动,而是扩展系列以填充缺失的日期 zz
然后使用 rollapply
.下面通过创建一个动物园系列(它还将日期转换为 Date class)然后将其转换为 ts class 来做到这一点。因为 ts class 只能表示规则间隔的系列,转换将填充缺失的日期并为它们提供 NA 值。我们可以用 1 填充它们,然后用 Date class index.
library(zoo)
z <- read.zoo(test_data2)
zz <- z |> as.ts() |> na.fill(1) |> as.zoo() |> aggregate(as.Date)
r <- rollapply(zz, 14, min, na.rm = TRUE, partial = TRUE, align = "left")
time(r)[which(r == 1)[1]]
## [1] "1999-12-02"
2) 另一种完全不涉及 rollapply
的解决方法是使用 rle
。使用上面的 zz
ok <- with(rle(coredata(zz)), rep(lengths >= 14 & values == 1, lengths))
tt[which(ok)[1]]
## [1] "1999-12-02"
3) 另一种不使用 rollapply 的方法是提取 0 值行,然后仅保留与下一个 0 值行相差超过 14 天的行。最后取第一个这样的行并在它之后的一天使用日期。这假设在第一个 运行 14+ 行之前至少有一个 0 行。下面我们从问题中返回使用 test_data
尽管这也适用于 test_data2
.
library(dplyr)
test_data %>%
mutate(date = as.Date(date)) %>%
filter(value == 0) %>%
mutate(diff = as.numeric(lead(date) - date)) %>%
filter(diff > 14) %>%
head(1) %>%
mutate(date = date + 1)
## date value diff
## 1 2000-01-02 0 17
滚动应用日期而不是点数
4) 这个问题还讨论了在日期上使用 rollapply
而不是我们在这里解决的要点。如上所述,这实际上并没有解决找到第一个 14+ 的问题,所以我们展示了如何找到第一个日期 in the series 开始至少 14那些。通常,我们首先使用 findInterval
计算宽度向量,然后以通常的方式使用 rollapply
,但使用这些宽度而不是使用标量宽度。这只涉及额外一行代码来计算宽度,w
.
# using test_data from question
tt <- as.Date(test_data$date)
w <- findInterval(tt + 13, tt, rightmost.closed = TRUE) - seq_along(tt) + 1
r <- rollapply(test_data$value, w, min, fill = NA, na.rm = TRUE, align = "left")
tt[which(r == 1)[1]]
## [1] "2000-01-02"
?rollapply
中还有更多示例展示了如何按时间而不是点数滚动。
sqldf
5) 一种完全不同的方法来解决在系列 中找到前 14 个具有 日期的问题的方法是使用 SQL 自连接。它将别名为 a
的 test
的第一个实例连接到第二个实例 b
,将指定日期范围内的 b 的所有行和 a
的所有行关联起来,取最小值 value
使用这些最小值创建新列的人 min14
。然后 having
子句仅保留 min14
为 1 的行,而 limit
子句保留第一行。然后我们在最后提取 date
。
library(sqldf)
test <- transform(test_data, date = as.Date(date))
sqldf("select a.*, min(b.value) min14
from test a
left join test b on b.date between a.date and a.date + 13
group by a.rowid
having min14 = 1
limit 1")$date
## [1] "2000-01-02"