您可以使用 dplyr across() 遍历成对的列吗?
Can you use dplyr across() to iterate across pairs of columns?
我有 18 对变量,我想对它们进行成对数学运算以计算 18 个新变量。 dplyr 中的 across() 函数在将公式应用于一列时非常方便。有没有办法将 across() 应用于成对的列?
简单除以 2 个变量的小例子(我的实际代码会更复杂,有些 ifelse,...):
library(tidyverse)
library(glue)
# filler data
df <- data.frame("label" = c('a','b','c','d'),
"A" = c(4, 3, 8, 9),
"B" = c(10, 0, 4, 1),
"error_A" = c(0.4, 0.3, 0.2, 0.1),
"error_B" = c(0.3, 0, 0.4, 0.1))
# what I want to have in the end
# instead of just 2 (A, B), I have 18
df1 <- df %>% mutate(
'R_A' = A/error_A,
'R_B' = B/error_B
)
# what I'm thinking about doing to use both variables A and error_A to calculate the new column
df2 <- df %>% mutate(
across(c('A','B'),
~.x/{HOW DO I USE THE COLUMN WHOSE NAME IS glue('error_',.x)}
.names = 'R_{.col}'
)
一个选项是map/reduce
。指定感兴趣的列 ('nm1'),在 map
中循环它们,select
来自数据集的列,reduce
通过划分,rename
之后的列列绑定(_dfc
),并将其与原始数据集绑定
library(dplyr)
library(purrr)
library(stringr)
nm1 <- c('A', 'B')
map_dfc(nm1, ~ df %>%
select(ends_with(.x)) %>%
reduce(., `/`) ) %>%
rename_all(~ str_c('R_', nm1)) %>%
bind_cols(df, .)
-输出
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.33333
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.00000
#4 d 9 1 0.1 0.1 90 10.00000
或 across
的另一个选项
df %>%
mutate(across(c(A, B), ~
./get(str_c('error_', cur_column() )), .names = 'R_{.col}' ))
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.33333
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.00000
#4 d 9 1 0.1 0.1 90 10.00000
我喜欢上面的 akruns 回答,尤其是 cur_column()
的方法。有趣的是,cur_column()
不能用于 {rlang} 的计算 (!! sym(paste0("error_", cur_column()))
),但 get
是一个很好的解决方法。
再补充一种方法,它也适用于 dpylr < 1.0.0。我通常将 mutate
自定义函数与 purrr::reduce()
一起使用。在此函数中,x
是您的字符串词干,您可以构造所有要使用 !! sym(paste0(...))
访问的变量。在左侧,您可以只使用 {rlang} 的粘合语法。
您通过在字符串向量上调用 reduce()
来应用此自定义函数,并且您的 data.frame
进入 .init = .
参数。
library(tidyverse)
library(glue)
# filler data
df <- data.frame("label" = c('a','b','c','d'),
"A" = c(4, 3, 8, 9),
"B" = c(10, 0, 4, 1),
"error_A" = c(0.4, 0.3, 0.2, 0.1),
"error_B" = c(0.3, 0, 0.4, 0.1))
gen_vars1 <- function(df, x) {
mutate(df,
"R_{x}" := !! sym(x) / !! sym(paste0("error_", x)))
}
df %>%
reduce(c("A", "B"), gen_vars1, .init = .)
#> label A B error_A error_B R_A R_B
#> 1 a 4 10 0.4 0.3 10 33.33333
#> 2 b 3 0 0.3 0.0 10 NaN
#> 3 c 8 4 0.2 0.4 40 10.00000
#> 4 d 9 1 0.1 0.1 90 10.00000
由 reprex package (v0.3.0)
于 2021 年 1 月 2 日创建
我曾经为这种问题开过一个feature request,但显然它对{dplyr}来说太特殊了。当您关注 link 时,您还可以找到另一个选项来执行此类操作。
一个选项可以是:
df %>%
mutate(across(c(A, B), .names = "R_{col}")/across(starts_with("error")))
label A B error_A error_B R_A R_B
1 a 4 10 0.4 0.3 10 33.33333
2 b 3 0 0.3 0.0 10 NaN
3 c 8 4 0.2 0.4 40 10.00000
4 d 9 1 0.1 0.1 90 10.00000
对于这种情况,我发现基本 R 解决方案也很直接且高效。它不需要遍历列或唯一值。你定义两组列,直接划分。
对于您分享的示例,我们可以通过查找其中只有一个字符的列名称来识别 "A"
和 "B"
列。
cols <- grep('^.$', names(df), value = TRUE)
error_cols <- grep('error', names(df), value = TRUE)
df[paste0('R_', cols)] <- df[cols]/df[error_cols]
df
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.3
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.0
#4 d 9 1 0.1 0.1 90 10.0
我有 18 对变量,我想对它们进行成对数学运算以计算 18 个新变量。 dplyr 中的 across() 函数在将公式应用于一列时非常方便。有没有办法将 across() 应用于成对的列?
简单除以 2 个变量的小例子(我的实际代码会更复杂,有些 ifelse,...):
library(tidyverse)
library(glue)
# filler data
df <- data.frame("label" = c('a','b','c','d'),
"A" = c(4, 3, 8, 9),
"B" = c(10, 0, 4, 1),
"error_A" = c(0.4, 0.3, 0.2, 0.1),
"error_B" = c(0.3, 0, 0.4, 0.1))
# what I want to have in the end
# instead of just 2 (A, B), I have 18
df1 <- df %>% mutate(
'R_A' = A/error_A,
'R_B' = B/error_B
)
# what I'm thinking about doing to use both variables A and error_A to calculate the new column
df2 <- df %>% mutate(
across(c('A','B'),
~.x/{HOW DO I USE THE COLUMN WHOSE NAME IS glue('error_',.x)}
.names = 'R_{.col}'
)
一个选项是map/reduce
。指定感兴趣的列 ('nm1'),在 map
中循环它们,select
来自数据集的列,reduce
通过划分,rename
之后的列列绑定(_dfc
),并将其与原始数据集绑定
library(dplyr)
library(purrr)
library(stringr)
nm1 <- c('A', 'B')
map_dfc(nm1, ~ df %>%
select(ends_with(.x)) %>%
reduce(., `/`) ) %>%
rename_all(~ str_c('R_', nm1)) %>%
bind_cols(df, .)
-输出
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.33333
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.00000
#4 d 9 1 0.1 0.1 90 10.00000
或 across
df %>%
mutate(across(c(A, B), ~
./get(str_c('error_', cur_column() )), .names = 'R_{.col}' ))
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.33333
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.00000
#4 d 9 1 0.1 0.1 90 10.00000
我喜欢上面的 akruns 回答,尤其是 cur_column()
的方法。有趣的是,cur_column()
不能用于 {rlang} 的计算 (!! sym(paste0("error_", cur_column()))
),但 get
是一个很好的解决方法。
再补充一种方法,它也适用于 dpylr < 1.0.0。我通常将 mutate
自定义函数与 purrr::reduce()
一起使用。在此函数中,x
是您的字符串词干,您可以构造所有要使用 !! sym(paste0(...))
访问的变量。在左侧,您可以只使用 {rlang} 的粘合语法。
您通过在字符串向量上调用 reduce()
来应用此自定义函数,并且您的 data.frame
进入 .init = .
参数。
library(tidyverse)
library(glue)
# filler data
df <- data.frame("label" = c('a','b','c','d'),
"A" = c(4, 3, 8, 9),
"B" = c(10, 0, 4, 1),
"error_A" = c(0.4, 0.3, 0.2, 0.1),
"error_B" = c(0.3, 0, 0.4, 0.1))
gen_vars1 <- function(df, x) {
mutate(df,
"R_{x}" := !! sym(x) / !! sym(paste0("error_", x)))
}
df %>%
reduce(c("A", "B"), gen_vars1, .init = .)
#> label A B error_A error_B R_A R_B
#> 1 a 4 10 0.4 0.3 10 33.33333
#> 2 b 3 0 0.3 0.0 10 NaN
#> 3 c 8 4 0.2 0.4 40 10.00000
#> 4 d 9 1 0.1 0.1 90 10.00000
由 reprex package (v0.3.0)
于 2021 年 1 月 2 日创建我曾经为这种问题开过一个feature request,但显然它对{dplyr}来说太特殊了。当您关注 link 时,您还可以找到另一个选项来执行此类操作。
一个选项可以是:
df %>%
mutate(across(c(A, B), .names = "R_{col}")/across(starts_with("error")))
label A B error_A error_B R_A R_B
1 a 4 10 0.4 0.3 10 33.33333
2 b 3 0 0.3 0.0 10 NaN
3 c 8 4 0.2 0.4 40 10.00000
4 d 9 1 0.1 0.1 90 10.00000
对于这种情况,我发现基本 R 解决方案也很直接且高效。它不需要遍历列或唯一值。你定义两组列,直接划分。
对于您分享的示例,我们可以通过查找其中只有一个字符的列名称来识别 "A"
和 "B"
列。
cols <- grep('^.$', names(df), value = TRUE)
error_cols <- grep('error', names(df), value = TRUE)
df[paste0('R_', cols)] <- df[cols]/df[error_cols]
df
# label A B error_A error_B R_A R_B
#1 a 4 10 0.4 0.3 10 33.3
#2 b 3 0 0.3 0.0 10 NaN
#3 c 8 4 0.2 0.4 40 10.0
#4 d 9 1 0.1 0.1 90 10.0