dplyr管道中嵌套函数的执行顺序

Order of execution of nested functions in dplyr pipe

当我在管道步骤中使用嵌套函数时,执行顺序似乎不直观。

df <- data.frame(a = c(1,NA,2), b = c(NA, NA, 1))
df %>% is.na %>% colSums # Produce correct count of missing values
df %>% colSums(is.na(.)) # Produce NA

谁能解释为什么第三行的嵌套函数没有产生正确的结果?

这是因为 . 总是作为第一个参数传递给以下函数。因此,在 colSums 的第二次尝试中,您假设将 is.na(.) 作为第一个参数传递给 colSums,但实际上您将其作为第二个参数传递,即 na.rm参数。所以你的代码实际上看起来像 df %>% colSums(x = ., na.rm = is.na(.))。您可以通过在函数周围使用 {} 来防止 . 作为第一个参数传递。 df %>% {colSums(is.na(.))}