根据另一个数据框在 R 数据框中创建变量
Creating variable in R data frame depending on another data frame
在浪费了将近一天的时间后,我正在寻求帮助。我有一个大数据框 (bdf) 和一个小数据框 (sdf)。我想根据 sdf$y 的值(作为时间变量的函数而变化)将变量 z 添加到 bdf。
这是一个可重现的例子:
bdf <- data.frame(tb = seq(as.POSIXct("2013-05-19 17:11:22 GMT", tz="GMT"), by=5624*24, length.out=10))
bdf
tb
1 2013-05-19 17:11:22
2 2013-05-21 06:40:58
3 2013-05-22 20:10:34
4 2013-05-24 09:40:10
5 2013-05-25 23:09:46
6 2013-05-27 12:39:22
7 2013-05-29 02:08:58
8 2013-05-30 15:38:34
9 2013-06-01 05:08:10
10 2013-06-02 18:37:46
sdf <- data.frame(ts = as.POSIXct(c("2013-05-22", "2013-05-25", "2013-05-30"), tz="GMT"), y = c(0.2, -0.1, 0.3))
> sdf
ts y
1 2013-05-22 0.2
2 2013-05-25 -0.1
3 2013-05-30 0.3
我想在 bdf 中创建具有以下 sdf$y 值的变量 z:
0.2 对于 bdf$tb 范围从第一个 bdf$tb 值到 sdf$ts 的第一个和第二个值之间的中间值的行。在这个简单的例子中,dbf 的第 1 行到第 3 行的时间 bdf$tb 低于“2013-05-23 12:00:00 GMT”。
-0.1 对于 bdf$tb 范围从 sdf$ts 的第一个和第二个值之间的中间值到 sdf$ts 的第二个和第三个值之间的中间值的行。在这个简单的例子中,dbf 的第 4 行和第 5 行的情况是 bdf$tb 在“2013-05-23 12:00:00 GMT”和“2013-05-27 12:00:00 GMT”之间.
0.3 对于 bdf$tb 范围从 sdf$ts 的第二个和第三个值的中间到 bdf$tb 的最后一个值的所有行。在这个简单的例子中,dbf 的第 1 到 6 到 10 行的时间大于“2013-05-23 12:00:00 GMT”。
因此,最后,大数据框 bdf 应该是这样的:
tb z
1 2013-05-19 17:11:22 0.2
2 2013-05-21 06:40:58 0.2
3 2013-05-22 20:10:34 0.2
4 2013-05-24 09:40:10 -0.1
5 2013-05-25 23:09:46 -0.1
6 2013-05-27 12:39:22 0.3
7 2013-05-29 02:08:58 0.3
8 2013-05-30 15:38:34 0.3
9 2013-06-01 05:08:10 0.3
10 2013-06-02 18:37:46 0.3
我无法成功使用 dplyr::mutate 并且无法使用循环...任何帮助将不胜感激。我希望我把这个问题描述清楚是遵守礼仪的(这是我的第一个问题)。
这是我的方法:
library(zoo)
m <- c(rollmean(as.POSIXct(sdf$ts), 2), Inf)
transform(bdf, z = sdf$y[sapply(tb, function(x) which.max(x < m))])
# tb z
#1 2013-05-19 17:11:22 0.2
#2 2013-05-21 06:40:58 0.2
#3 2013-05-22 20:10:34 0.2
#4 2013-05-24 09:40:10 -0.1
#5 2013-05-25 23:09:46 -0.1
#6 2013-05-27 12:39:22 0.3
#7 2013-05-29 02:08:58 0.3
#8 2013-05-30 15:38:34 0.3
#9 2013-06-01 05:08:10 0.3
#10 2013-06-02 18:37:46 0.3
更新:删除了到数字的转换(不需要)
简要说明:
as.POSIXct(sdf$ts)
将日期转换为 POSIXct 样式的日期时间
rollmean(as.POSIXct(sdf$ts), 2)
计算每两个连续行的滚动平均值。这恰好是您要用于分离观察结果的时间。 rollmean
来自包 zoo
。计算 rollmean(..,2)
表示输出向量比输入向量缩短 1。
- 这就是为什么我将
rollmean
的结果包装在 c(.., Inf)
中,这意味着无穷大值作为最后一个值添加到 rollmean 向量中。这将确保 sdf
中 z
的最后条目也被返回(在特定示例中为 0.3)。
- 我使用
transform
将 z
列添加到 bdf
sapply(tb, function(x) which.max(x < m))
遍历 bdf$tb
中的条目并为每个条目计算 bdf$tb
小于(早于) m
的最大索引(它成立rollmean 项的向量)。每个 bdf$tb
条目仅返回最大(最新)索引。
- 索引向量在
sdf$y[sapply(tb, function(x) which.max(x < m))]
中用于提取 sdf$y
的相应元素,然后 stored/copied 到 [=22] 中新的 z
列=]
希望对您有所帮助
编辑说明:我最初得到的结果与您的结果略有不同,我现在认为这与我对 R difftime 对象缺乏了解有关。 POSIXt
对象中的时区对我来说仍然是个谜,但我现在看到,当我将 'difftime' 对象强制转换为 'numeric' 时,我得到了 "days" 中的值。
findInterval
函数作为索引创建函数非常有用,它映射一个具有多个相邻非重叠间隔的值向量。您实际上只有两个时间点,分为三个时间间隔。
bdf$z <- c(0.2,-0.1,0.3)[findInterval(bdf$tb,
c(-Inf,
sdf$ts[2] - 0.5*as.numeric(difftime(sdf$ts[2], sdf$ts[1], units="secs")),
sdf$ts[3] - 0.5*as.numeric(difftime(sdf$ts[3], sdf$ts[2],units="sec")),
Inf))]
> bdf
tb z
1 2013-05-19 17:11:22 0.2
2 2013-05-21 06:40:58 0.2
3 2013-05-22 20:10:34 0.2
4 2013-05-24 09:40:10 -0.1
5 2013-05-25 23:09:46 -0.1
6 2013-05-27 12:39:22 0.3
7 2013-05-29 02:08:58 0.3
8 2013-05-30 15:38:34 0.3
9 2013-06-01 05:08:10 0.3
10 2013-06-02 18:37:46 0.3
我还检查了我的结果是否会受到 findIntervals 中的间隔是否在右侧而不是左侧(默认)闭合的影响,并且没有发现任何差异。
这是一个使用 data.table
的 滚动连接 的解决方案:
require(data.table)
setkey(setDT(sdf), ts)
sdf[bdf, roll = "nearest"]
# ts y
# 1: 2013-05-19 17:11:22 0.2
# 2: 2013-05-21 06:40:58 0.2
# 3: 2013-05-22 20:10:34 0.2
# 4: 2013-05-24 09:40:10 -0.1
# 5: 2013-05-25 23:09:46 -0.1
# 6: 2013-05-27 12:39:22 0.3
# 7: 2013-05-29 02:08:58 0.3
# 8: 2013-05-30 15:38:34 0.3
# 9: 2013-06-01 05:08:10 0.3
# 10: 2013-06-02 18:37:46 0.3
setDT
将 data.frame 转换为 data.table 通过引用 .
setkey
通过参考 对 data.table 进行排序,按提供的列递增顺序,并将这些列标记为 关键列(以便我们稍后可以加入这些关键列。
在 data.table 中,当 i
是 data.table 时,x[i]
执行连接。如果您还不熟悉,我会推荐您参考 this answer 了解 data.table 连接。
x[i]
执行 equi-join。也就是说,它为 i
中的每一行在 x
中找到匹配的行索引,然后将这些行从 x
提取到 return 连接结果以及来自 i
。如果 i
中的某行在 x
中找不到匹配的行索引,则该行默认为 x
的 NA
。
但是,x[i, roll = .]
执行滚动连接。当没有匹配项时,要么将上一个观察结果向前移动(roll = TRUE
或 -Inf
),要么将下一个观察结果向后移动(roll = Inf
),或者滚动到最接近的值(roll = "nearest"
).在这种情况下,您需要 roll = "nearest"
IIUC.
HTH
这现在看来完全没有必要,但在基础 R
bdf$z <- numeric(nrow(bdf))
for(i in seq_along(bdf$z)){
ind <- which.min(abs(bdf$tb[i] - sdf$ts))
bdf$z[i] <- sdf$y[ind]
}
虽然有点笨拙,但优点是清晰,容易适应dplyr
library(dplyr)
bdf %>% rowwise() %>%
mutate(z= sdf$y[which.min(abs(as.numeric(tb)-as.numeric(sdf$ts)))])
#Source: local data frame [10 x 2]
#Groups: <by row>
# tb z
#1 2013-05-19 17:11:22 0.2
#2 2013-05-21 06:40:58 0.2
#3 2013-05-22 20:10:34 0.2
#4 2013-05-24 09:40:10 -0.1
#5 2013-05-25 23:09:46 -0.1
#6 2013-05-27 12:39:22 0.3
#7 2013-05-29 02:08:58 0.3
#8 2013-05-30 15:38:34 0.3
#9 2013-06-01 05:08:10 0.3
#10 2013-06-02 18:37:46 0.3
在浪费了将近一天的时间后,我正在寻求帮助。我有一个大数据框 (bdf) 和一个小数据框 (sdf)。我想根据 sdf$y 的值(作为时间变量的函数而变化)将变量 z 添加到 bdf。
这是一个可重现的例子:
bdf <- data.frame(tb = seq(as.POSIXct("2013-05-19 17:11:22 GMT", tz="GMT"), by=5624*24, length.out=10))
bdf
tb
1 2013-05-19 17:11:22
2 2013-05-21 06:40:58
3 2013-05-22 20:10:34
4 2013-05-24 09:40:10
5 2013-05-25 23:09:46
6 2013-05-27 12:39:22
7 2013-05-29 02:08:58
8 2013-05-30 15:38:34
9 2013-06-01 05:08:10
10 2013-06-02 18:37:46
sdf <- data.frame(ts = as.POSIXct(c("2013-05-22", "2013-05-25", "2013-05-30"), tz="GMT"), y = c(0.2, -0.1, 0.3))
> sdf
ts y
1 2013-05-22 0.2
2 2013-05-25 -0.1
3 2013-05-30 0.3
我想在 bdf 中创建具有以下 sdf$y 值的变量 z:
0.2 对于 bdf$tb 范围从第一个 bdf$tb 值到 sdf$ts 的第一个和第二个值之间的中间值的行。在这个简单的例子中,dbf 的第 1 行到第 3 行的时间 bdf$tb 低于“2013-05-23 12:00:00 GMT”。
-0.1 对于 bdf$tb 范围从 sdf$ts 的第一个和第二个值之间的中间值到 sdf$ts 的第二个和第三个值之间的中间值的行。在这个简单的例子中,dbf 的第 4 行和第 5 行的情况是 bdf$tb 在“2013-05-23 12:00:00 GMT”和“2013-05-27 12:00:00 GMT”之间.
0.3 对于 bdf$tb 范围从 sdf$ts 的第二个和第三个值的中间到 bdf$tb 的最后一个值的所有行。在这个简单的例子中,dbf 的第 1 到 6 到 10 行的时间大于“2013-05-23 12:00:00 GMT”。
因此,最后,大数据框 bdf 应该是这样的:
tb z
1 2013-05-19 17:11:22 0.2
2 2013-05-21 06:40:58 0.2
3 2013-05-22 20:10:34 0.2
4 2013-05-24 09:40:10 -0.1
5 2013-05-25 23:09:46 -0.1
6 2013-05-27 12:39:22 0.3
7 2013-05-29 02:08:58 0.3
8 2013-05-30 15:38:34 0.3
9 2013-06-01 05:08:10 0.3
10 2013-06-02 18:37:46 0.3
我无法成功使用 dplyr::mutate 并且无法使用循环...任何帮助将不胜感激。我希望我把这个问题描述清楚是遵守礼仪的(这是我的第一个问题)。
这是我的方法:
library(zoo)
m <- c(rollmean(as.POSIXct(sdf$ts), 2), Inf)
transform(bdf, z = sdf$y[sapply(tb, function(x) which.max(x < m))])
# tb z
#1 2013-05-19 17:11:22 0.2
#2 2013-05-21 06:40:58 0.2
#3 2013-05-22 20:10:34 0.2
#4 2013-05-24 09:40:10 -0.1
#5 2013-05-25 23:09:46 -0.1
#6 2013-05-27 12:39:22 0.3
#7 2013-05-29 02:08:58 0.3
#8 2013-05-30 15:38:34 0.3
#9 2013-06-01 05:08:10 0.3
#10 2013-06-02 18:37:46 0.3
更新:删除了到数字的转换(不需要)
简要说明:
as.POSIXct(sdf$ts)
将日期转换为 POSIXct 样式的日期时间rollmean(as.POSIXct(sdf$ts), 2)
计算每两个连续行的滚动平均值。这恰好是您要用于分离观察结果的时间。rollmean
来自包zoo
。计算rollmean(..,2)
表示输出向量比输入向量缩短 1。- 这就是为什么我将
rollmean
的结果包装在c(.., Inf)
中,这意味着无穷大值作为最后一个值添加到 rollmean 向量中。这将确保sdf
中z
的最后条目也被返回(在特定示例中为 0.3)。 - 我使用
transform
将z
列添加到bdf
sapply(tb, function(x) which.max(x < m))
遍历bdf$tb
中的条目并为每个条目计算bdf$tb
小于(早于)m
的最大索引(它成立rollmean 项的向量)。每个bdf$tb
条目仅返回最大(最新)索引。- 索引向量在
sdf$y[sapply(tb, function(x) which.max(x < m))]
中用于提取sdf$y
的相应元素,然后 stored/copied 到 [=22] 中新的z
列=]
希望对您有所帮助
编辑说明:我最初得到的结果与您的结果略有不同,我现在认为这与我对 R difftime 对象缺乏了解有关。 POSIXt
对象中的时区对我来说仍然是个谜,但我现在看到,当我将 'difftime' 对象强制转换为 'numeric' 时,我得到了 "days" 中的值。
findInterval
函数作为索引创建函数非常有用,它映射一个具有多个相邻非重叠间隔的值向量。您实际上只有两个时间点,分为三个时间间隔。
bdf$z <- c(0.2,-0.1,0.3)[findInterval(bdf$tb,
c(-Inf,
sdf$ts[2] - 0.5*as.numeric(difftime(sdf$ts[2], sdf$ts[1], units="secs")),
sdf$ts[3] - 0.5*as.numeric(difftime(sdf$ts[3], sdf$ts[2],units="sec")),
Inf))]
> bdf
tb z
1 2013-05-19 17:11:22 0.2
2 2013-05-21 06:40:58 0.2
3 2013-05-22 20:10:34 0.2
4 2013-05-24 09:40:10 -0.1
5 2013-05-25 23:09:46 -0.1
6 2013-05-27 12:39:22 0.3
7 2013-05-29 02:08:58 0.3
8 2013-05-30 15:38:34 0.3
9 2013-06-01 05:08:10 0.3
10 2013-06-02 18:37:46 0.3
我还检查了我的结果是否会受到 findIntervals 中的间隔是否在右侧而不是左侧(默认)闭合的影响,并且没有发现任何差异。
这是一个使用 data.table
的 滚动连接 的解决方案:
require(data.table)
setkey(setDT(sdf), ts)
sdf[bdf, roll = "nearest"]
# ts y
# 1: 2013-05-19 17:11:22 0.2
# 2: 2013-05-21 06:40:58 0.2
# 3: 2013-05-22 20:10:34 0.2
# 4: 2013-05-24 09:40:10 -0.1
# 5: 2013-05-25 23:09:46 -0.1
# 6: 2013-05-27 12:39:22 0.3
# 7: 2013-05-29 02:08:58 0.3
# 8: 2013-05-30 15:38:34 0.3
# 9: 2013-06-01 05:08:10 0.3
# 10: 2013-06-02 18:37:46 0.3
setDT
将 data.frame 转换为 data.table 通过引用 .setkey
通过参考 对 data.table 进行排序,按提供的列递增顺序,并将这些列标记为 关键列(以便我们稍后可以加入这些关键列。在 data.table 中,当
i
是 data.table 时,x[i]
执行连接。如果您还不熟悉,我会推荐您参考 this answer 了解 data.table 连接。x[i]
执行 equi-join。也就是说,它为i
中的每一行在x
中找到匹配的行索引,然后将这些行从x
提取到 return 连接结果以及来自i
。如果i
中的某行在x
中找不到匹配的行索引,则该行默认为x
的NA
。但是,
x[i, roll = .]
执行滚动连接。当没有匹配项时,要么将上一个观察结果向前移动(roll = TRUE
或-Inf
),要么将下一个观察结果向后移动(roll = Inf
),或者滚动到最接近的值(roll = "nearest"
).在这种情况下,您需要roll = "nearest"
IIUC.
HTH
这现在看来完全没有必要,但在基础 R
bdf$z <- numeric(nrow(bdf))
for(i in seq_along(bdf$z)){
ind <- which.min(abs(bdf$tb[i] - sdf$ts))
bdf$z[i] <- sdf$y[ind]
}
虽然有点笨拙,但优点是清晰,容易适应dplyr
library(dplyr)
bdf %>% rowwise() %>%
mutate(z= sdf$y[which.min(abs(as.numeric(tb)-as.numeric(sdf$ts)))])
#Source: local data frame [10 x 2]
#Groups: <by row>
# tb z
#1 2013-05-19 17:11:22 0.2
#2 2013-05-21 06:40:58 0.2
#3 2013-05-22 20:10:34 0.2
#4 2013-05-24 09:40:10 -0.1
#5 2013-05-25 23:09:46 -0.1
#6 2013-05-27 12:39:22 0.3
#7 2013-05-29 02:08:58 0.3
#8 2013-05-30 15:38:34 0.3
#9 2013-06-01 05:08:10 0.3
#10 2013-06-02 18:37:46 0.3