带有可选参数的函数中的`weighted.mean`？

Question

我需要将 weighted.mean 函数包含在另一个函数中，作为我正在处理的项目的一部分。我无法让 w 参数在我正在处理的函数中正常工作。

为了使我的整体功能正常工作，我需要满足使权重参数成为可选参数的要求。如果没有给出权重，我需要默认为某种 wt = 1。使用条件语句可能很容易做到这一点，我在其中创建了一个填充 1 的虚拟列，但我想知道这是否是最好的方法。

library(tidyverse)

my_weighted_mean <- function(var, wt) {
  var = enquo(var)
  
  mtcars %>%
    summarise_at(vars(!!var), ~weighted.mean(., w = wt))
  
}

## wrong output
my_weighted_mean(cyl, wt = "hp")
#>        cyl
#> 1 6.599231

## expected output
weighted.mean(mtcars$cyl, mtcars$hp)
#> [1] 6.860673

^{由 reprex package (v0.3.0)}

于 2020-10-27 创建

Answer 1

最后更新
使 wt 成为可选参数 (wt = NULL) 比我预期的要复杂。下面是一种使用 tryCatch 的方法。一旦我们知道 wt 是否为 NULL，我们就可以用 1 的向量替换它，其长度为您的 data.frame。否则，我们可以将它与 curly-curly 运算符一起使用。根据 OP 的评论，新函数只需要一个参数 x 来总结一个变量，并且可以将多个分组变量放入省略号 ....

library(dplyr)
library(rlang)

my_weighted_mean <- function(.dat, x, ..., wt = NULL) {
  
  .pred <- tryCatch(
    is.null(wt),
    error = function(e) {
      is.null(rlang::eval_tidy(enquo(wt), data = mtcars))
    })
  
  .dat %>% 
    group_by(...) %>% 
    summarise(
      {{x}} := weighted.mean({{x}},
                             w = if (.pred) rep(1, length({{x}})) else {{wt}} ))
  
}

mtcars %>% 
  my_weighted_mean(mpg)
#> # A tibble: 1 x 1
#>     mpg
#>   <dbl>
#> 1  20.1

mtcars %>% 
  my_weighted_mean(mpg, cyl)
#> `summarise()` ungrouping output (override with `.groups` argument)
#> # A tibble: 3 x 2
#>     cyl   mpg
#>   <dbl> <dbl>
#> 1     4  26.7
#> 2     6  19.7
#> 3     8  15.1

mtcars %>% 
  my_weighted_mean(mpg, cyl, wt = disp)
#> `summarise()` ungrouping output (override with `.groups` argument)
#> # A tibble: 3 x 2
#>     cyl   mpg
#>   <dbl> <dbl>
#> 1     4  25.8
#> 2     6  19.8
#> 3     8  14.9

mtcars %>% 
  my_weighted_mean(mpg, cyl, gear, wt = disp)
#> `summarise()` regrouping output by 'cyl' (override with `.groups` argument)
#> # A tibble: 8 x 3
#> # Groups:   cyl [3]
#>     cyl  gear   mpg
#>   <dbl> <dbl> <dbl>
#> 1     4     3  21.5
#> 2     4     4  25.9
#> 3     4     5  27.9
#> 4     6     3  19.9
#> 5     6     4  19.7
#> 6     6     5  19.7
#> 7     8     3  14.8
#> 8     8     5  15.4

^{由 reprex package (v0.3.0)}

于 2020-10-28 创建

较早的答案
您还需要 enqou() wt 或仅使用 curly-curly 运算符。如果你想在 var 中插入多个变量，那么你可以使用省略号 ... 而不是包裹在 curly-curly.

中的变量名

library(tidyverse)

my_weighted_mean <- function(var, wt) {
  
  mtcars %>%
    summarise_at(vars({{var}}), ~weighted.mean(., w = {{wt}}))
  
}

my_weighted_mean(cyl, wt = hp)
#>        cyl
#> 1 6.860673


my_weighted_mean <- function(..., wt) {

  mtcars %>%
    summarise_at(vars(...), ~weighted.mean(., w = {{wt}}))
  
}

my_weighted_mean(cyl, disp, wt = hp)
#>        cyl     disp
#> 1 6.860673 275.1096

^{由 reprex package (v0.3.0)}

于 2020-10-27 创建

Fromer 对旧答案的更新（已更正） 正如@Konrad Rudolph 正确指出的那样，summarise_at 已被取代，单个变量不需要它 -这里 summarise 就足够了。如果你想总结很多变量，新的官方方式是使用 across() 如下：

my_weighted_mean <- function(..., wt) {
  
  mtcars %>%
    summarise(across(c(...),
                     ~weighted.mean(., w = {{wt}})))
  
}

my_weighted_mean(cyl, disp, wt = hp)

Answer 2

正如 Tim 提到的，您需要以与 var 相同的方式处理 wt，即将其作为不带引号的表达式传递，并在函数中引用它。

此外，由于我们已经在使用 tidy 求值，因此 summarize_at（顺便说一下，superseded）就没有必要了。

my_weighted_mean = function (.data, var, wt) {
    dplyr::summarize(.data, {{var}} := weighted.mean({{var}}, w = {{wt}}))
}

my_weighted_mean(mtcars, cyl, hp)
#        cyl
# 1 6.860673

带有可选参数的函数中的`weighted.mean`？

`weighted.mean` in a function with an optional argument?

r

function

mean

dplyr

tidyeval