R 中带有 magrittr 和 dplyr 的条件数据帧突变
Conditional dataframe mutations in R with magrittr and dplyr
我想利用 magrittr 和 dplyr 的简洁性,根据其他列中的值在列子集中的行之间复制单个值。这是一个简单的例子;我想将这个想法应用到一个大型数据集的许多列中,在一长串命令中具有多个条件。
取数据帧df <- data.frame(a = 1:5, b = 6:10, x = 11:15, y = 16:20)
:
a b x y
1 6 11 16
2 7 12 17
3 8 13 18
4 9 14 19
5 10 15 20
对于 a = 5
行,我想用 b = 7
行中的值替换 x
和 y
的值,得到:
a b x y
1 6 11 16
2 7 12 17
3 8 13 18
4 9 14 19
5 10 12 17
这次尝试失败:
foo <- function(x){ifelse(df$a == 5, df[df$b == 7, .(df$x)], x)}
df %<>% mutate_each(funs(foo), x, y)
我能得到的最接近的是:
bar <- function(x){ifelse(df$a == 5, df[df$b == 7, "x"], x)}
df %<>% mutate_each(funs(bar), x, y)
但这是不正确的,因为它用 x
中的值替换了两个值,而不是分别用 x
和 y
中的值替换。
感谢您的建议。
您可以使用 mutate_each
和 replace
:
df %>% mutate_each(funs(replace(., a==5, nth(., which(b==7)))), x, y)
输出:
a b x y
1 1 6 11 16
2 2 7 12 17
3 3 8 13 18
4 4 9 14 19
5 5 10 12 17
或者根据@docendodiscimus 的评论,它可以进一步缩短为(可能 [
也比 which
更好):
df %>% mutate_each(funs(replace(., a==5, .[b==7])), x, y)
仅提及 data.table
解决方案是:
require(data.table)
setDT(df)[a == 5, c("x", "y") := df[b == 7, .SD, .SDcols = c("x", "y")]]
> df
a b x y
1: 1 6 11 16
2: 2 7 12 17
3: 3 8 13 18
4: 4 9 14 19
5: 5 10 12 17
或者,您也可以使用:
cols <- c("x", "y")
setDT(df)[a == 5, (cols) := df[b == 7, .SD, .SDcols = cols]]
# or
cols <- c("x", "y")
setDT(df)[a == 5, (cols) := df[b == 7, cols, with = FALSE]]
如果您的主要要求是在更长的 dplyr-pipe 中应用该函数,您可以执行类似以下示例的操作:
foo <- function(df, cols = c("x", "y")) {
df[df$a == 5, cols] <- df[df$b == 7, cols]
df
}
df %>% ... %>% foo(c("x", "y")) %>% ...
# a b x y
#1 1 6 11 16
#2 2 7 12 17
#3 3 8 13 18
#4 4 9 14 19
#5 5 10 12 17
我想利用 magrittr 和 dplyr 的简洁性,根据其他列中的值在列子集中的行之间复制单个值。这是一个简单的例子;我想将这个想法应用到一个大型数据集的许多列中,在一长串命令中具有多个条件。
取数据帧df <- data.frame(a = 1:5, b = 6:10, x = 11:15, y = 16:20)
:
a b x y
1 6 11 16
2 7 12 17
3 8 13 18
4 9 14 19
5 10 15 20
对于 a = 5
行,我想用 b = 7
行中的值替换 x
和 y
的值,得到:
a b x y
1 6 11 16
2 7 12 17
3 8 13 18
4 9 14 19
5 10 12 17
这次尝试失败:
foo <- function(x){ifelse(df$a == 5, df[df$b == 7, .(df$x)], x)}
df %<>% mutate_each(funs(foo), x, y)
我能得到的最接近的是:
bar <- function(x){ifelse(df$a == 5, df[df$b == 7, "x"], x)}
df %<>% mutate_each(funs(bar), x, y)
但这是不正确的,因为它用 x
中的值替换了两个值,而不是分别用 x
和 y
中的值替换。
感谢您的建议。
您可以使用 mutate_each
和 replace
:
df %>% mutate_each(funs(replace(., a==5, nth(., which(b==7)))), x, y)
输出:
a b x y
1 1 6 11 16
2 2 7 12 17
3 3 8 13 18
4 4 9 14 19
5 5 10 12 17
或者根据@docendodiscimus 的评论,它可以进一步缩短为(可能 [
也比 which
更好):
df %>% mutate_each(funs(replace(., a==5, .[b==7])), x, y)
仅提及 data.table
解决方案是:
require(data.table)
setDT(df)[a == 5, c("x", "y") := df[b == 7, .SD, .SDcols = c("x", "y")]]
> df
a b x y
1: 1 6 11 16
2: 2 7 12 17
3: 3 8 13 18
4: 4 9 14 19
5: 5 10 12 17
或者,您也可以使用:
cols <- c("x", "y")
setDT(df)[a == 5, (cols) := df[b == 7, .SD, .SDcols = cols]]
# or
cols <- c("x", "y")
setDT(df)[a == 5, (cols) := df[b == 7, cols, with = FALSE]]
如果您的主要要求是在更长的 dplyr-pipe 中应用该函数,您可以执行类似以下示例的操作:
foo <- function(df, cols = c("x", "y")) {
df[df$a == 5, cols] <- df[df$b == 7, cols]
df
}
df %>% ... %>% foo(c("x", "y")) %>% ...
# a b x y
#1 1 6 11 16
#2 2 7 12 17
#3 3 8 13 18
#4 4 9 14 19
#5 5 10 12 17