purrr::pmap 用于具有多个输入和多个 return 值的函数

Question

我正在尝试设置具有多个输入和多个 return 值的自定义函数，并在数据框上将此函数与 purrr::map 一起使用。

我的示例数据是：

test_data <- 
      tibble(x1 = 1:10, 
             x2 = 2:11,
             x3 = 3:12,
             x4 = x1 + x2 + x3)

这个 test_data 看起来像这样：

# A tibble: 10 x 4
      x1    x2    x3    x4
   <int> <int> <int> <int>
 1     1     2     3     6
 2     2     3     4     9
 3     3     4     5    12
 4     4     5     6    15
 5     5     6     7    18
 6     6     7     8    21
 7     7     8     9    24
 8     8     9    10    27
 9     9    10    11    30
10    10    11    12    33

首先，如果我的函数只有一个 return 值（在本例中为 output_3）：

my_function_1 <- 
  function(var1, var2, var3, var4){
    output_1 <- var1 + var2
    output_2 <- var2 + var3 
    output_3 <- var1 + var2 + var3
    output_4 <- var1 + var2 + var4
    return(output_3)
  }

我使用

实现了 pmap 这个功能

my_results <-
  dplyr::as.tbl(test_data) %>% 
  dplyr::mutate(output = purrr::pmap(list(var1 = x1, var2 = x2, var3 = x3, var4 = x4),
                                     my_function_1)) %>% 
  tidyr::unnest()

结果如下所示：

 my_results 
# A tibble: 10 x 5
      x1    x2    x3    x4 output
   <int> <int> <int> <int>  <int>
 1     1     2     3     6      6
 2     2     3     4     9      9
 3     3     4     5    12     12
 4     4     5     6    15     15
 5     5     6     7    18     18
 6     6     7     8    21     21
 7     7     8     9    24     24
 8     8     9    10    27     27
 9     9    10    11    30     30
10    10    11    12    33     33

现在如果我的函数有多个 return 值，例如

my_function_2 <- 
  function(var1, var2, var3, var4){
    output_1 <- var1 + var2
    output_2 <- var2 + var3 
    output_3 <- var1 + var2 + var3
    output_4 <- var1 + var2 + var4
    return(list(output_1, output_2, output_3, output_4))
  }

我应该如何将此 my_function_2 映射到 purrr::map 并将 return 列添加到 test_data，就像上一步使用一个 return 值一样？

我也在考虑先输出结果（使用下面的代码），然后join/bind test_data:

pmap(list(test_data$x1,
              test_data$x2, 
              test_data$x3, 
              test_data$x4),
             my_function_2) %>% 
  flatten()

但结果不是想要的格式，如下所示：

[[1]]
[1] 3

[[2]]
[1] 5

[[3]]
[1] 6

[[4]]
[1] 9

[[5]]
[1] 5
... ...

有人可以提醒我一些可能的解决方案来格式化输出并与原始 test_data 合并吗？

Answer 1

一个选项是return来自函数

的向量

my_function_2 <- function(var1, var2, var3, var4){
    output_1 <- var1 + var2
    output_2 <- var2 + var3 
    output_3 <- var1 + var2 + var3
    output_4 <- var1 + var2 + var4
    return(c(output_1, output_2, output_3,  output_4))
}

然后使用pmap_dfc和cbind到原始数据帧

library(tidyverse)

bind_cols(test_data, 
 pmap_dfc(list(test_data$x1,
               test_data$x2, 
               test_data$x3, 
               test_data$x4),
               my_function_2) %>% t() %>% data.frame() %>%
 set_names(paste0("x", 5:8)))


# A tibble: 10 x 8
#      x1    x2    x3    x4    x5    x6    x7    x8
#   <int> <int> <int> <int> <int> <int> <int> <int>
# 1     1     2     3     6     3     5     6     9
# 2     2     3     4     9     5     7     9    14
# 3     3     4     5    12     7     9    12    19
# 4     4     5     6    15     9    11    15    24
# 5     5     6     7    18    11    13    18    29
# 6     6     7     8    21    13    15    21    34
# 7     7     8     9    24    15    17    24    39
# 8     8     9    10    27    17    19    27    44
# 9     9    10    11    30    19    21    30    49
#10    10    11    12    33    21    23    33    54

Answer 2

更好的选择是在函数中将 return 值创建为 tibble，然后仅应用 pmap

library(purrr)
library(dplyr)
my_function_2 <- 
  function(var1, var2, var3, var4){
    output_1 <- var1 + var2
    output_2 <- var2 + var3 
    output_3 <- var1 + var2 + var3
    output_4 <- var1 + var2 + var4
    tibble::tibble(output_1, output_2, output_3, output_4)
  }

pmap_dfr(list(test_data$x1,
               test_data$x2, 
               test_data$x3, 
               test_data$x4),
              my_function_2) %>%
    bind_cols(test_data, .)
# A tibble: 10 x 8
#      x1    x2    x3    x4 output_1 output_2 output_3 output_4
#   <int> <int> <int> <int>    <int>    <int>    <int>    <int>
# 1     1     2     3     6        3        5        6        9
# 2     2     3     4     9        5        7        9       14
# 3     3     4     5    12        7        9       12       19
# 4     4     5     6    15        9       11       15       24
# 5     5     6     7    18       11       13       18       29
# 6     6     7     8    21       13       15       21       34
# 7     7     8     9    24       15       17       24       39
# 8     8     9    10    27       17       19       27       44
# 9     9    10    11    30       19       21       30       49
#10    10    11    12    33       21       23       33       54

此外，如果列名与函数的参数匹配，我们不需要分别调用每一列

pmap_dfr(set_names(test_data, paste0("var", 1:4)), my_function_2) %>% 
           bind_cols(test_data, .)

Answer 3

在您的示例中，计算是矢量化的，因此您不需要 pmap，我们可以执行以下操作：

library(tidyverse)
test_data %>% 
  mutate(!!!setNames(invoke(my_function_2,unname(.)),paste0("output_",1:4)))
# # A tibble: 10 x 8
#       x1    x2    x3    x4 output_1 output_2 output_3 output_4
#    <int> <int> <int> <int>    <int>    <int>    <int>    <int>
#  1     1     2     3     6        3        5        6        9
#  2     2     3     4     9        5        7        9       14
#  3     3     4     5    12        7        9       12       19
#  4     4     5     6    15        9       11       15       24
#  5     5     6     7    18       11       13       18       29
#  6     6     7     8    21       13       15       21       34
#  7     7     8     9    24       15       17       24       39
#  8     8     9    10    27       17       19       27       44
#  9     9    10    11    30       19       21       30       49
# 10    10    11    12    33       21       23       33       54

如果你在 my_function_2 中命名你的元素（最简单的方法是使用 dplyr::lst 而不是 list 它更简单：

my_function_2 <- 
  function(var1, var2, var3, var4){
    output_1 <- var1 + var2
    output_2 <- var2 + var3 
    output_3 <- var1 + var2 + var3
    output_4 <- var1 + var2 + var4
    return(lst(output_1, output_2, output_3, output_4))
  }


test_data %>% 
  mutate(!!!invoke(my_function_2,unname(.)))
# # A tibble: 10 x 8
#       x1    x2    x3    x4 output_1 output_2 output_3 output_4
#    <int> <int> <int> <int>    <int>    <int>    <int>    <int>
#  1     1     2     3     6        3        5        6        9
#  2     2     3     4     9        5        7        9       14
#  3     3     4     5    12        7        9       12       19
#  4     4     5     6    15        9       11       15       24
#  5     5     6     7    18       11       13       18       29
#  6     6     7     8    21       13       15       21       34
#  7     7     8     9    24       15       17       24       39
#  8     8     9    10    27       17       19       27       44
#  9     9    10    11    30       19       21       30       49
# 10    10    11    12    33       21       23       33       54

或者如果您需要使用 pmap 因为您在实际情况中使用了非向量化操作：

test_data %>% 
  mutate(!!!pmap_dfr(unname(.),my_function_2))

purrr::pmap 用于具有多个输入和多个 return 值的函数

purrr::pmap for functions with multiple inputs and multiple return values

r

function

pmap

dataframe

purrr