在带有 dplyr 的 R DataFrame 中使用用户定义的函数
Using a user defined function in R DataFrame with dplyr
可以在 dplyr 中使用用户定义的函数。但是如果我使用下面的代码:
create_string <- function(n) {
new_string <- paste(c(0:n), collapse=';')
return(new_string)
}
df <- data.frame(x = 1:3, number = c('4', '2', '1'), expected = c(create_string(4), create_string(2), create_string(1)))
df %>% mutate(reality = create_string(number))
输出等于:
x number expected reality
1 1 4 0;1;2;3;4 0;1;2;3;4
2 2 2 0;1;2 0;1;2;3;4
3 3 1 0;1 0;1;2;3;4
Warning messages:
1: Problem with `mutate()` input `reality`.
i numerical expression has 3 elements: only the first used
i Input `reality` is `create_string(number)`.
2: In 0:n : numerical expression has 3 elements: only the first used
所以你可以看到预期的输出不等于实际(包括错误)
问题是 mutate
一次填充所有行,这意味着您实际上得到的不是 create_string(4)
,而是 create_string(c(4,2,1))
。解决方案是以某种方式强制执行一次一个值。
df %>%
mutate(reality = sapply(number, create_string))
# x number expected reality
# 1 1 4 0;1;2;3;4 0;1;2;3;4
# 2 2 2 0;1;2 0;1;2
# 3 3 1 0;1 0;1
备选方案:
df %>%
rowwise() %>%
mutate(reality = create_string(number)) %>%
ungroup()
df %>% mutate(reality = purrr::map_chr(number, create_string))
df %>% mutate(reality = Vectorize(create_string)(number))
或者您可以在内部向量化您的函数:
create_string <- function(n) {
new_string <- sapply(n, function(n0) paste(c(0:n0), collapse=';'))
return(new_string)
}
df %>%
mutate(reality = create_string(number))
# x number expected reality
# 1 1 4 0;1;2;3;4 0;1;2;3;4
# 2 2 2 0;1;2 0;1;2
# 3 3 1 0;1 0;1
可以在 dplyr 中使用用户定义的函数。但是如果我使用下面的代码:
create_string <- function(n) {
new_string <- paste(c(0:n), collapse=';')
return(new_string)
}
df <- data.frame(x = 1:3, number = c('4', '2', '1'), expected = c(create_string(4), create_string(2), create_string(1)))
df %>% mutate(reality = create_string(number))
输出等于:
x number expected reality
1 1 4 0;1;2;3;4 0;1;2;3;4
2 2 2 0;1;2 0;1;2;3;4
3 3 1 0;1 0;1;2;3;4
Warning messages:
1: Problem with `mutate()` input `reality`.
i numerical expression has 3 elements: only the first used
i Input `reality` is `create_string(number)`.
2: In 0:n : numerical expression has 3 elements: only the first used
所以你可以看到预期的输出不等于实际(包括错误)
问题是 mutate
一次填充所有行,这意味着您实际上得到的不是 create_string(4)
,而是 create_string(c(4,2,1))
。解决方案是以某种方式强制执行一次一个值。
df %>%
mutate(reality = sapply(number, create_string))
# x number expected reality
# 1 1 4 0;1;2;3;4 0;1;2;3;4
# 2 2 2 0;1;2 0;1;2
# 3 3 1 0;1 0;1
备选方案:
df %>%
rowwise() %>%
mutate(reality = create_string(number)) %>%
ungroup()
df %>% mutate(reality = purrr::map_chr(number, create_string))
df %>% mutate(reality = Vectorize(create_string)(number))
或者您可以在内部向量化您的函数:
create_string <- function(n) {
new_string <- sapply(n, function(n0) paste(c(0:n0), collapse=';'))
return(new_string)
}
df %>%
mutate(reality = create_string(number))
# x number expected reality
# 1 1 4 0;1;2;3;4 0;1;2;3;4
# 2 2 2 0;1;2 0;1;2
# 3 3 1 0;1 0;1