根据另一个数据框在 R 数据框中创建变量

Creating variable in R data frame depending on another data frame

在浪费了将近一天的时间后,我正在寻求帮助。我有一个大数据框 (bdf) 和一个小数据框 (sdf)。我想根据 sdf$y 的值(作为时间变量的函数而变化)将变量 z 添加到 bdf。

这是一个可重现的例子:

bdf <- data.frame(tb = seq(as.POSIXct("2013-05-19 17:11:22 GMT", tz="GMT"), by=5624*24, length.out=10))

bdf
                tb
1  2013-05-19 17:11:22
2  2013-05-21 06:40:58
3  2013-05-22 20:10:34
4  2013-05-24 09:40:10
5  2013-05-25 23:09:46
6  2013-05-27 12:39:22
7  2013-05-29 02:08:58
8  2013-05-30 15:38:34
9  2013-06-01 05:08:10
10 2013-06-02 18:37:46


sdf <- data.frame(ts = as.POSIXct(c("2013-05-22", "2013-05-25", "2013-05-30"), tz="GMT"), y = c(0.2, -0.1, 0.3))

> sdf
      ts    y
1 2013-05-22  0.2
2 2013-05-25 -0.1
3 2013-05-30  0.3

我想在 bdf 中创建具有以下 sdf$y 值的变量 z:

因此,最后,大数据框 bdf 应该是这样的:

                 tb    z
1  2013-05-19 17:11:22  0.2
2  2013-05-21 06:40:58  0.2
3  2013-05-22 20:10:34  0.2
4  2013-05-24 09:40:10 -0.1
5  2013-05-25 23:09:46 -0.1
6  2013-05-27 12:39:22  0.3
7  2013-05-29 02:08:58  0.3
8  2013-05-30 15:38:34  0.3
9  2013-06-01 05:08:10  0.3
10 2013-06-02 18:37:46  0.3

我无法成功使用 dplyr::mutate 并且无法使用循环...任何帮助将不胜感激。我希望我把这个问题描述清楚是遵守礼仪的(这是我的第一个问题)。

这是我的方法:

library(zoo)
m <- c(rollmean(as.POSIXct(sdf$ts), 2), Inf)
transform(bdf, z = sdf$y[sapply(tb, function(x) which.max(x < m))])
#                    tb    z
#1  2013-05-19 17:11:22  0.2
#2  2013-05-21 06:40:58  0.2
#3  2013-05-22 20:10:34  0.2
#4  2013-05-24 09:40:10 -0.1
#5  2013-05-25 23:09:46 -0.1
#6  2013-05-27 12:39:22  0.3
#7  2013-05-29 02:08:58  0.3
#8  2013-05-30 15:38:34  0.3
#9  2013-06-01 05:08:10  0.3
#10 2013-06-02 18:37:46  0.3

更新:删除了到数字的转换(不需要)

简要说明:

  • as.POSIXct(sdf$ts) 将日期转换为 POSIXct 样式的日期时间
  • rollmean(as.POSIXct(sdf$ts), 2) 计算每两个连续行的滚动平均值。这恰好是您要用于分离观察结果的时间。 rollmean 来自包 zoo。计算 rollmean(..,2) 表示输出向量比输入向量缩短 1。
  • 这就是为什么我将 rollmean 的结果包装在 c(.., Inf) 中,这意味着无穷大值作为最后一个值添加到 rollmean 向量中。这将确保 sdfz 的最后条目也被返回(在特定示例中为 0.3)。
  • 我使用 transformz 列添加到 bdf
  • sapply(tb, function(x) which.max(x < m)) 遍历 bdf$tb 中的条目并为每个条目计算 bdf$tb 小于(早于) m 的最大索引(它成立rollmean 项的向量)。每个 bdf$tb 条目仅返回最大(最新)索引。
  • 索引向量在 sdf$y[sapply(tb, function(x) which.max(x < m))] 中用于提取 sdf$y 的相应元素,然后 stored/copied 到 [=22] 中新的 z 列=]

希望对您有所帮助

编辑说明:我最初得到的结果与您的结果略有不同,我现在认为这与我对 R difftime 对象缺乏了解有关。 POSIXt 对象中的时区对我来说仍然是个谜,但我现在看到,当我将 'difftime' 对象强制转换为 'numeric' 时,我得到了 "days" 中的值。

findInterval 函数作为索引创建函数非常有用,它映射一个具有多个相邻非重叠间隔的值向量。您实际上只有两个时间点,分为三个时间间隔。

bdf$z <- c(0.2,-0.1,0.3)[findInterval(bdf$tb, 
                c(-Inf, 
  sdf$ts[2] - 0.5*as.numeric(difftime(sdf$ts[2], sdf$ts[1], units="secs")), 
  sdf$ts[3] - 0.5*as.numeric(difftime(sdf$ts[3], sdf$ts[2],units="sec")), 
                 Inf))]

> bdf
                    tb    z
1  2013-05-19 17:11:22  0.2
2  2013-05-21 06:40:58  0.2
3  2013-05-22 20:10:34  0.2
4  2013-05-24 09:40:10 -0.1
5  2013-05-25 23:09:46 -0.1
6  2013-05-27 12:39:22  0.3
7  2013-05-29 02:08:58  0.3
8  2013-05-30 15:38:34  0.3
9  2013-06-01 05:08:10  0.3
10 2013-06-02 18:37:46  0.3

我还检查了我的结果是否会受到 findIntervals 中的间隔是否在右侧而不是左侧(默认)闭合的影响,并且没有发现任何差异。

这是一个使用 data.table 滚动连接 的解决方案:

require(data.table)
setkey(setDT(sdf), ts)
sdf[bdf, roll = "nearest"]
#                      ts    y
#  1: 2013-05-19 17:11:22  0.2
#  2: 2013-05-21 06:40:58  0.2
#  3: 2013-05-22 20:10:34  0.2
#  4: 2013-05-24 09:40:10 -0.1
#  5: 2013-05-25 23:09:46 -0.1
#  6: 2013-05-27 12:39:22  0.3
#  7: 2013-05-29 02:08:58  0.3
#  8: 2013-05-30 15:38:34  0.3
#  9: 2013-06-01 05:08:10  0.3
# 10: 2013-06-02 18:37:46  0.3
  • setDT 将 data.frame 转换为 data.table 通过引用 .

  • setkey 通过参考 对 data.table 进行排序,按提供的列递增顺序,并将这些列标记为 关键列(以便我们稍后可以加入这些关键列。

  • 在 data.table 中,当 i 是 data.table 时,x[i] 执行连接。如果您还不熟悉,我会推荐您参考 this answer 了解 data.table 连接。

  • x[i] 执行 equi-join。也就是说,它为 i 中的每一行在 x 中找到匹配的行索引,然后将这些行从 x 提取到 return 连接结果以及来自 i。如果 i 中的某行在 x 中找不到匹配的行索引,则该行默认为 xNA

    但是,x[i, roll = .] 执行滚动连接。当没有匹配项时,要么将上一个观察结果向前移动(roll = TRUE-Inf),要么将下一个观察结果向后移动(roll = Inf),或者滚动到最接近的值(roll = "nearest").在这种情况下,您需要 roll = "nearest" IIUC.

HTH

这现在看来完全没有必要,但在基础 R

bdf$z <- numeric(nrow(bdf))
for(i in seq_along(bdf$z)){
  ind <- which.min(abs(bdf$tb[i] - sdf$ts))
  bdf$z[i] <- sdf$y[ind]
}

虽然有点笨拙,但优点是清晰,容易适应dplyr

library(dplyr)
bdf %>% rowwise() %>% 
  mutate(z= sdf$y[which.min(abs(as.numeric(tb)-as.numeric(sdf$ts)))])

#Source: local data frame [10 x 2]
#Groups: <by row>

#                    tb    z
#1  2013-05-19 17:11:22  0.2
#2  2013-05-21 06:40:58  0.2
#3  2013-05-22 20:10:34  0.2
#4  2013-05-24 09:40:10 -0.1
#5  2013-05-25 23:09:46 -0.1
#6  2013-05-27 12:39:22  0.3
#7  2013-05-29 02:08:58  0.3
#8  2013-05-30 15:38:34  0.3
#9  2013-06-01 05:08:10  0.3
#10 2013-06-02 18:37:46  0.3