purrr 中的准引用

Quasiquotation in purrr

作为仅保留每个个体受伤前发生的植物生长时间序列中的值的更大功能的一部分 (plantid),我正在编写 2 个块,按顺序,将包含一个函数

  1. 控制参数中给出的所有变量都是字符向量(如第二个函数,%in%不识别命名因子),如果不是,则转换为字符同时提供警告。

  2. 识别并标记来自上述给定变量的行,其中包括来自参数 b.

  3. 的字符串之一

我很确定 quotation/quasiquotation 或 bang-bang (!!)/big-bang (!!!) 运算符有问题(这是我的第一次写带引号的函数)。我一直收到“!!! 可能不会在顶级使用”之类的警告,我不确定如何解决。我还需要帮助找到一种好方法来尝试转换不是字符的变量。

这是我目前得到的

参数说明

函数

id_injured <- function(df, plantid, year, injuries, forbidden_values){
    #parsing unquoted strings.
    plantid <- enquo(plantid)
    year <- enquo(year)
    forbidden_values <- enquos(forbidden_values)
    injuries <- syms(injuries)

    #if all variables in injuries are not characters, stop and warn (attempt to convert to character those variables which are not character)

    if(!all(purrr::pmap_int(select(df, !!!injuries), ~is.character(...))))){
       stop("All injury variables are not characters. Convert factors in injuries to character variables")} else {
          (1) #Control to give output while testing function, replace with conversion and warning?
    }

    #Identify rows with matching injury codes with 1, else 0.
    Dataplantid <- df %>% mutate(is_injured = purrr::pmap_int(select(df, !!!injuries), any(c(...) %in% !!!forbidden values)))

    #End of function
}


预期用途

我删除了函数的第 (1) 部分,这样它只会尝试标记 1 或 0。

Dataplantid <- id_injured(df=df, plantid=plantid, year=year, injuries=c("PrimaryInjury","SecondaryInjury","OtherInjury"),forbidden_values=c("Rust","Insect","Snow break")

结果

Error: Can't use !!! at top level.

> last_trace()
<error/rlang_error>
Can't use `!!!` at top level.
Backtrace:
     █
  1. └─global::so_injured(...)
  2.   └─`%>%`(...)
  3.     ├─base::withVisible(eval(quote(`_fseq`(`_lhs`)), env, env))
  4.     └─base::eval(quote(`_fseq`(`_lhs`)), env, env)
  5.       └─base::eval(quote(`_fseq`(`_lhs`)), env, env)
  6.         └─`_fseq`(`_lhs`)
  7.           └─magrittr::freduce(value, `_function_list`)
  8.             ├─base::withVisible(function_list[[k]](value))
  9.             └─function_list[[k]](value)
 10.               ├─dplyr::mutate(...)
 11.               └─dplyr:::mutate.data.frame(...)
 12.                 ├─base::as.data.frame(mutate(tbl_df(.data), ...))
 13.                 ├─dplyr::mutate(tbl_df(.data), ...)
 14.                 └─dplyr:::mutate.tbl_df(tbl_df(.data), ...)
 15.                   └─rlang::enquos(..., .named = TRUE)
 16.                     └─rlang:::endots(...)
 17.                       └─rlang:::map(...)
 18.                         └─base::lapply(.x, .f, ...)
 19.                           └─rlang:::FUN(X[[i]], ...)
 20.                             └─rlang::splice(...)

关联数据

plantid <- rep(c(1,2,3,4,5), times=c(3,3,3,3,3))
year <- rep(1:3, length.out=length(plantid))
set.seed(42)
PrimaryInjury <- sample(c(NA,NA,NA,"Rust","Insect", "Snow break"), 15, replace=TRUE)
SecondaryInjury <- rep(NA, length.out=length(plantid)) #Filled with NA for example
OtherInjury <- rep(NA, length.out=length(plantid)) #Filled NA for example
df <- data.frame(plantid,year,PrimaryInjury,SecondaryInjury,OtherInjury)
#Right now, PrimaryInjury is a factor, SecondaryInjury and OtherInjury are logical.

预期输出

Dataplantid <- df
Dataplantid$is_injured <- c(0,1,0,0,0,1,0,0,0,1,0,1,1,1,0)

存在一些问题,按问题从最少到最多的顺序排列:

  1. 对逻辑结果使用 map_lgl 而不是 map_int
  2. 特别是,使用 map_lgl 而不是 <em>p</em>map_int 除非你真的打算跨多个映射并行参数,这里不是这种情况。
  3. 不要将函数结果赋值给函数内部的变量。它并没有真正的伤害,但它是不必要的和误导的。
  4. 不要引用然后插入 forbidden_values 值。您想要在此处使用字符向量,而不是 R 名称。
  5. 您在计算 is_injured 的 purrr 调用中遗漏了 ~
  6. 识别受损值的逻辑并不像这样工作;这里 可能 是一种使用 pmap_lgl 的方法,但我认为将数据重塑为长格式并使用它更直接——尽管可能更冗长。

放在一起,我们得到:

id_injured <- function(df, plantid, year, injuries, forbidden_values) {
    plantid <- enquo(plantid)
    year <- enquo(year)
    injuries <- syms(injuries)

    df_injuries <- select(df, !!! injuries)

    if (! all(purrr::map_lgl(df_injuries, is.character))) {
        stop("All injury variables are not characters. Convert factors in injuries to character variables")
    }

    is_injured <- df_injuries %>%
        mutate(.RowID = row_number()) %>%
        tidyr::gather(Key, Value, -.RowID) %>%
        group_by(.RowID) %>%
        summarize(is_injured = any(Value %in% forbidden_values)) %>%
        pull(is_injured)

    df %>% mutate(is_injured = is_injured)
}