使用 tidyr::complete 和 group_by

Question

有谁知道 tidyr::complete() 是否支持通过 group_by() 分组？

准确地说：我有一些看起来像这样的数据框

df <- data.frame(
  "ID"   = rep(1:2, each = 2),
  "Col1" = c("A", NA, "AA", NA),
  "Col2" = c("B", "C", "BB", "CC"))

现在我想使用 complete() 和 group_by() 计算所有可能的组合每组！

df %>% 
 group_by(ID) %>% 
 complete(Col1, Col2)

  Error in .Call("dplyr_left_join_impl", PACKAGE = "dplyr", x, y, by_x,  : 
  negative length vectors are not allowed

这会导致错误。但是，使用 complete() 而不分组是可行的，但这不是我想要的。

df %>% 
 complete(Col1, Col2)

问题：

我做错了什么，还是 complete() 根本无法与 group_by 一起使用？
如果是这样，我该怎么做呢（最好不使用循环）？

Answer 1

我们可以使用 data.table 来做到这一点。将 'data.frame' 转换为 'data.table' (setDT(df))，并交叉连接 (CJ) 'Col1' 和 'Col2' 的 unique 元素, 按 'ID'.

分组

library(data.table)#v1.9.6+
setDT(df)[,CJ(Col1, Col2, unique=TRUE), by = ID]
#   ID V1 V2
#1:  1 NA  B
#2:  1 NA  C
#3:  1  A  B
#4:  1  A  C
#5:  2 NA BB
#6:  2 NA CC
#7:  2 AA BB
#8:  2 AA CC

Answer 2

您可以使用 complete 和 group_by，但您必须使用 do 语句：

df %>% 
 group_by(ID) %>% 
 do(complete(., Col1, Col2, fill = list(ID = .$ID)))

Answer 3

只是想让大家知道，随着 tidyr 的开发版本（2016 年 1 月 13 日的 0.3.1.9000 版），所有 tidyr 动词现在都尊重分组，因此使用 [=12 的解决方法=] 不再需要了。一旦该版本在 CRAN 上可用，我将编辑我的答案。

使用 tidyr::complete 和 group_by

Using tidyr::complete with group_by

r

dplyr

tidyr