整洁的过滤方式，但将补码放入tibble

Question

假设我正在过滤一个 tibble，进行一些处理，过滤，然后进行更多处理，但我想保留在每一步过滤掉的数据的补充。

例如而不是

library(tidyverse)
data(mtcars)
mtcars %>%
  filter(cyl<5) %>%
  filter(gear>3 & wt>3) %>%
  filter(mpg>23)

我可能想要这样的东西，而无需执行单独的步骤，即我存储小标题，再执行一个步骤来存储补码，然后再执行另一个步骤等。

library(tidyverse)
data(mtcars)
mtcars1 = mtcars %>%
  filter(cyl<5, keep_complement="mtcars2") %>%
  filter(gear>3 & wt>3, keep_complement="mtcars3") %>%
  filter(mpg>23, keep_complement="mtcars4")
# Desired outcome: 4 tibbles mtcars1 to 4

mtcars_final = bind_rows(mtcars1, mtcars2, mtcars3, mtcars4)

如果你想知道我为什么要这个：我有一些越来越复杂的字符串操作来解决问题，首先是简单的直接比较，然后是一些 regex/fuzzy 字符串匹配，然后是我可能最终得到的东西使用神经网络。感觉应该有一些巧妙的方法可以只对一个子集执行昂贵的操作，而不必分那么多步骤编写代码。

即我试图避免的是看起来像这样的笨拙的东西（这也需要我自己反转任何过滤操作 - 实际上还必须考虑 NA 值等）：

mtcars_tmp <- mtcars %>%
    filter(cyl<5)

mtcars2 <- mtcars %>%
    filter(cyl>=5)

mtcars_tmp2 <- mtcars_tmp %>%
    filter(gear>3 & wt>3)

mtcars3 <- mtcars_tmp %>%
    filter(gear<=3 | wt<=3)

mtcars1 <- mtcars_tmp2 %>%
    filter(mpg>23)

mtcars4 <- mtcars_tmp2 %>%
    filter(mpg<=23)

mtcars_final = bind_rows(mtcars1, mtcars2, mtcars3, mtcars4)

Answer 1

这将使用 anti_join 创建补码并将其分配给一个新对象和 returns 过滤后的结果，因此它可以像管道中的普通 dplyr::filter 一样使用：

library(tidyverse)

#' Filters a data.frame and saves the complement
#' @param keep_complement charachter to name the object the complement is saved to. NULL to not save it.
filter_complement <- function(.data, ..., keep_complement = NULL) {
  res <- dplyr::filter(.data = .data, ...)
  
  if(! is.null(keep_complement)) {
    complement <- dplyr::anti_join(.data, res)
    assign(keep_complement, complement, envir = globalenv())  
  }
  
  res
}

mtcars %>%
  filter(cyl < 5) %>%
  filter(gear > 3 & wt > 3) %>%
  filter(mpg > 23)
#>            mpg cyl  disp hp drat   wt qsec vs am gear carb
#> Merc 240D 24.4   4 146.7 62 3.69 3.19   20  1  0    4    2

mtcars %>%
  filter_complement(cyl < 5, keep_complement = "mtcars2") %>%
  filter_complement(gear > 3 & wt > 3, keep_complement = "mtcars3") %>%
  filter_complement(mpg > 23, keep_complement = "mtcars4")
#> Joining, by = c("mpg", "cyl", "disp", "hp", "drat", "wt", "qsec", "vs", "am",
#> "gear", "carb")
#> Joining, by = c("mpg", "cyl", "disp", "hp", "drat", "wt", "qsec", "vs", "am",
#> "gear", "carb")
#> Joining, by = c("mpg", "cyl", "disp", "hp", "drat", "wt", "qsec", "vs", "am",
#> "gear", "carb")
#>            mpg cyl  disp hp drat   wt qsec vs am gear carb
#> Merc 240D 24.4   4 146.7 62 3.69 3.19   20  1  0    4    2

mtcars4
#>           mpg cyl  disp hp drat   wt qsec vs am gear carb
#> Merc 230 22.8   4 140.8 95 3.92 3.15 22.9  1  0    4    2
mtcars3
#>                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
#> Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
#> Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
#> Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
#> Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
#> Toyota Corona  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
#> Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
#> Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
#> Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
#> Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

^{由 reprex package (v2.0.0)}

于 2022-05-06 创建

整洁的过滤方式，但将补码放入tibble

tidy way of filtering, but putting complement into tibble

r

filter

tidyverse