使用 tidyr::complete 和 group_by
Using tidyr::complete with group_by
有谁知道 tidyr::complete()
是否支持通过 group_by()
分组?
准确地说:我有一些看起来像这样的数据框
df <- data.frame(
"ID" = rep(1:2, each = 2),
"Col1" = c("A", NA, "AA", NA),
"Col2" = c("B", "C", "BB", "CC"))
现在我想使用 complete()
和 group_by()
计算所有可能的组合 每组 !
df %>%
group_by(ID) %>%
complete(Col1, Col2)
Error in .Call("dplyr_left_join_impl", PACKAGE = "dplyr", x, y, by_x, :
negative length vectors are not allowed
这会导致错误。但是,使用 complete()
而不分组是可行的,但这不是我想要的。
df %>%
complete(Col1, Col2)
问题:
- 我做错了什么,还是
complete()
根本无法与 group_by
一起使用?
- 如果是这样,我该怎么做呢(最好不使用循环)?
我们可以使用 data.table
来做到这一点。将 'data.frame' 转换为 'data.table' (setDT(df)
),并交叉连接 (CJ
) 'Col1' 和 'Col2' 的 unique
元素, 按 'ID'.
分组
library(data.table)#v1.9.6+
setDT(df)[,CJ(Col1, Col2, unique=TRUE), by = ID]
# ID V1 V2
#1: 1 NA B
#2: 1 NA C
#3: 1 A B
#4: 1 A C
#5: 2 NA BB
#6: 2 NA CC
#7: 2 AA BB
#8: 2 AA CC
您可以使用 complete
和 group_by
,但您必须使用 do
语句:
df %>%
group_by(ID) %>%
do(complete(., Col1, Col2, fill = list(ID = .$ID)))
只是想让大家知道,随着 tidyr
的开发版本(2016 年 1 月 13 日的 0.3.1.9000 版),所有 tidyr
动词现在都尊重分组,因此使用 [=12 的解决方法=] 不再需要了。一旦该版本在 CRAN 上可用,我将编辑我的答案。
有谁知道 tidyr::complete()
是否支持通过 group_by()
分组?
准确地说:我有一些看起来像这样的数据框
df <- data.frame(
"ID" = rep(1:2, each = 2),
"Col1" = c("A", NA, "AA", NA),
"Col2" = c("B", "C", "BB", "CC"))
现在我想使用 complete()
和 group_by()
计算所有可能的组合 每组 !
df %>%
group_by(ID) %>%
complete(Col1, Col2)
Error in .Call("dplyr_left_join_impl", PACKAGE = "dplyr", x, y, by_x, :
negative length vectors are not allowed
这会导致错误。但是,使用 complete()
而不分组是可行的,但这不是我想要的。
df %>%
complete(Col1, Col2)
问题:
- 我做错了什么,还是
complete()
根本无法与group_by
一起使用? - 如果是这样,我该怎么做呢(最好不使用循环)?
我们可以使用 data.table
来做到这一点。将 'data.frame' 转换为 'data.table' (setDT(df)
),并交叉连接 (CJ
) 'Col1' 和 'Col2' 的 unique
元素, 按 'ID'.
library(data.table)#v1.9.6+
setDT(df)[,CJ(Col1, Col2, unique=TRUE), by = ID]
# ID V1 V2
#1: 1 NA B
#2: 1 NA C
#3: 1 A B
#4: 1 A C
#5: 2 NA BB
#6: 2 NA CC
#7: 2 AA BB
#8: 2 AA CC
您可以使用 complete
和 group_by
,但您必须使用 do
语句:
df %>%
group_by(ID) %>%
do(complete(., Col1, Col2, fill = list(ID = .$ID)))
只是想让大家知道,随着 tidyr
的开发版本(2016 年 1 月 13 日的 0.3.1.9000 版),所有 tidyr
动词现在都尊重分组,因此使用 [=12 的解决方法=] 不再需要了。一旦该版本在 CRAN 上可用,我将编辑我的答案。