dplyr 根据具有不同后缀的其他列进行变异
dplyr mutate based on other column with different suffix
我有一个与此类似的数据框:
df <- data.frame(a_1_1 = c(1, 0, 1), a_1_2=c(1,0,0),a_2_1=c(1,0,0), a_2_2=c(1,0 ,1), b=c(2,3,4))
我想通过比较具有相同前缀的列来创建新变量,方法如下:
df <- df %>% mutate(a_1=case_when((a_1_1==1 | a_1_2==1)~"A", TRUE ~ "B")) %>%
mutate(a_2=case_when((a_2_1==1 | a_2_2==1)~"A", TRUE ~ "B"))
但是在我的真实数据中,我有很多以“a_*”开头的变量,所以我想创建这些变量而不是对每个变量都做一次。
带有 across
的选项,循环遍历以 'a' 开头的列,然后是 _
和一些数字,然后是 _
和数字 1字符串的末尾 ($
),在该列 (.
) 上使用 case_when
,并通过更改列名 ( cur_column()
) 和 str_replace
,将新列的后缀指定为 _new
,然后在下一步中将这些列重命名为 rename_with
library(dplyr)
library(stringr)
df %>%
mutate(across(matches('^a_\d+_1$'),
~ case_when(. == 1| get(str_replace(cur_column(), '_\d+$', '_2')) == 1 ~ 'A',
TRUE ~ 'B'), .names = '{.col}_new')) %>%
rename_with(~ str_remove(., '_\d+_new'), ends_with('new'))
-输出
# a_1_1 a_1_2 a_2_1 a_2_2 b a_1 a_2
#1 1 1 1 1 2 A A
#2 0 0 0 0 3 B B
#3 1 0 0 1 4 A A
或者另一种选择是使用 pivot_longer
重塑为 'long' 格式并使其更容易进行比较以创建新列,使用 pivot_wider
将其重塑回宽格式然后将这些新列绑定到原始数据
library(tidyr)
df %>%
select(-b) %>%
mutate(rn = row_number()) %>%
pivot_longer(cols = -rn, names_to = c('grp', '.value'),
names_sep = "_(?=\d+$)") %>%
transmute(rn, grp, val = case_when(`1` == 1|`2` == 1 ~ 'A',
TRUE ~ 'B')) %>%
pivot_wider(names_from = grp, values_from = val) %>%
select(-rn) %>%
bind_cols(df, .)
或使用 base R
和 split.default
df[paste0("a_", 1:2)] <- ifelse(
sapply(split.default(df[startsWith(names(df), "a_")],
sub("_\d+$", "", grep("^a_", names(df), value = TRUE))),
rowSums) > 0, 'A', 'B')
或使用 for
循环
nm1 <- unique(sub("_\d+$", "", grep('^a_\d+', names(df), value = TRUE)))
for(nm in nm1) df[[nm]] <- ifelse(rowSums(df[startsWith(names(df),
nm)]) > 0, "A", "B")
我有一个与此类似的数据框:
df <- data.frame(a_1_1 = c(1, 0, 1), a_1_2=c(1,0,0),a_2_1=c(1,0,0), a_2_2=c(1,0 ,1), b=c(2,3,4))
我想通过比较具有相同前缀的列来创建新变量,方法如下:
df <- df %>% mutate(a_1=case_when((a_1_1==1 | a_1_2==1)~"A", TRUE ~ "B")) %>%
mutate(a_2=case_when((a_2_1==1 | a_2_2==1)~"A", TRUE ~ "B"))
但是在我的真实数据中,我有很多以“a_*”开头的变量,所以我想创建这些变量而不是对每个变量都做一次。
带有 across
的选项,循环遍历以 'a' 开头的列,然后是 _
和一些数字,然后是 _
和数字 1字符串的末尾 ($
),在该列 (.
) 上使用 case_when
,并通过更改列名 ( cur_column()
) 和 str_replace
,将新列的后缀指定为 _new
,然后在下一步中将这些列重命名为 rename_with
library(dplyr)
library(stringr)
df %>%
mutate(across(matches('^a_\d+_1$'),
~ case_when(. == 1| get(str_replace(cur_column(), '_\d+$', '_2')) == 1 ~ 'A',
TRUE ~ 'B'), .names = '{.col}_new')) %>%
rename_with(~ str_remove(., '_\d+_new'), ends_with('new'))
-输出
# a_1_1 a_1_2 a_2_1 a_2_2 b a_1 a_2
#1 1 1 1 1 2 A A
#2 0 0 0 0 3 B B
#3 1 0 0 1 4 A A
或者另一种选择是使用 pivot_longer
重塑为 'long' 格式并使其更容易进行比较以创建新列,使用 pivot_wider
将其重塑回宽格式然后将这些新列绑定到原始数据
library(tidyr)
df %>%
select(-b) %>%
mutate(rn = row_number()) %>%
pivot_longer(cols = -rn, names_to = c('grp', '.value'),
names_sep = "_(?=\d+$)") %>%
transmute(rn, grp, val = case_when(`1` == 1|`2` == 1 ~ 'A',
TRUE ~ 'B')) %>%
pivot_wider(names_from = grp, values_from = val) %>%
select(-rn) %>%
bind_cols(df, .)
或使用 base R
和 split.default
df[paste0("a_", 1:2)] <- ifelse(
sapply(split.default(df[startsWith(names(df), "a_")],
sub("_\d+$", "", grep("^a_", names(df), value = TRUE))),
rowSums) > 0, 'A', 'B')
或使用 for
循环
nm1 <- unique(sub("_\d+$", "", grep('^a_\d+', names(df), value = TRUE)))
for(nm in nm1) df[[nm]] <- ifelse(rowSums(df[startsWith(names(df),
nm)]) > 0, "A", "B")