在带有 dplyr 的 R DataFrame 中使用用户定义的函数

Using a user defined function in R DataFrame with dplyr

可以在 dplyr 中使用用户定义的函数。但是如果我使用下面的代码:

create_string <- function(n) {
 new_string <- paste(c(0:n), collapse=';')
 return(new_string)
}

df <- data.frame(x = 1:3, number = c('4', '2', '1'), expected = c(create_string(4), create_string(2), create_string(1)))

df %>% mutate(reality = create_string(number))

输出等于:

  x number  expected   reality
1 1      4 0;1;2;3;4 0;1;2;3;4
2 2      2     0;1;2 0;1;2;3;4
3 3      1       0;1 0;1;2;3;4
Warning messages:
1: Problem with `mutate()` input `reality`.
i numerical expression has 3 elements: only the first used
i Input `reality` is `create_string(number)`. 
2: In 0:n : numerical expression has 3 elements: only the first used

所以你可以看到预期的输出不等于实际(包括错误)

问题是 mutate 一次填充所有行,这意味着您实际上得到的不是 create_string(4),而是 create_string(c(4,2,1))。解决方案是以某种方式强制执行一次一个值。

df %>%
  mutate(reality = sapply(number, create_string))
#   x number  expected   reality
# 1 1      4 0;1;2;3;4 0;1;2;3;4
# 2 2      2     0;1;2     0;1;2
# 3 3      1       0;1       0;1

备选方案:

df %>%
  rowwise() %>%
  mutate(reality = create_string(number)) %>%
  ungroup()

df %>% mutate(reality = purrr::map_chr(number, create_string))
df %>% mutate(reality = Vectorize(create_string)(number))

或者您可以在内部向量化您的函数:

create_string <- function(n) {
 new_string <- sapply(n, function(n0) paste(c(0:n0), collapse=';'))
 return(new_string)
}
df %>%
  mutate(reality = create_string(number))
#   x number  expected   reality
# 1 1      4 0;1;2;3;4 0;1;2;3;4
# 2 2      2     0;1;2     0;1;2
# 3 3      1       0;1       0;1