R:为什么 expand.grid() 产生的行比我预期的多?

R: Why is expand.grid() producing many more rows than I expect?


# Preliminaries

# Simulate data
df <- data.frame(x = as.factor(rep(c(1,2), 50)), y= as.factor(sample(1:3, 100, replace = T)))

# Expected result
data.frame(x = rep(1:2, 3), y = rep(1:3, 2)) # 6 rows!


# Tidyverse result
tidyr::expand_grid(df) # produces 100 rows!
tidyr::expand_grid(df$x, df$y) # produces 10k rows!

# Base R version
base::expand.grid(df) # produces 10k rows!
base::expand.grid(df$x, df$y) # produces 10k rows!

# Solution...but why do I have to do this?!



do.call(expand_grid, df)


invoke(expand_grid, df)
# A tibble: 10,000 × 2
   x     y    
   <fct> <fct>
 1 1     3    
 2 1     3    
 3 1     3    
 4 1     2    
 5 1     3    
 6 1     2    
 7 1     2    
 8 1     2    
 9 1     3    
10 1     1    
# … with 9,990 more rows


expand_grid(!!! df)
# A tibble: 10,000 × 2
   x     y    
   <fct> <fct>
 1 1     3    
 2 1     3    
 3 1     3    
 4 1     2    
 5 1     3    
 6 1     2    
 7 1     2    
 8 1     2    
 9 1     3    
10 1     1    
# … with 9,990 more rows

正如@Mossa 评论的那样,return 独特组合的函数将是 expandcrossing 因为 expand 在 [=24= 上调用 expand_grid ] 值

> expand(df, df)
# A tibble: 6 × 2
  x     y    
  <fct> <fct>
1 1     1    
2 1     2    
3 1     3    
4 2     1    
5 2     2    
6 2     3    


function (data, ..., .name_repair = "check_unique") 
    out <- grid_dots(..., `_data` = data)
    out <- map(out, sorted_unique)
    out <- expand_grid(!!!out, .name_repair = .name_repair)
    reconstruct_tibble(data, out)

expand.grid 不会尝试 return 只有输入向量的唯一值。它将始终输出一个数据帧,该数据帧的行数与其输入向量的长度的乘积相同:

nrow(expand.grid(1:10, 1:10, 1:10))
#> [1] 1000

nrow(expand.grid(1, 1, 1, 1, 1, 1, 1, 1, 1))
#> [1] 1

如果您查看 expand.grid 的源代码,它会采用可变点并将它们转换为名为 args 的列表。然后它包括以下行:

d <- lengths(args)

其中 return 是一个向量,我们输入 expand.grid 的每个向量都有一个条目。在 expand.grid(df$x, df$y) 的情况下,d 等同于 c(100, 100).


orep <- prod(d)

得到 d 的乘积,即 100x100,即 10,000。


如果您只想要两个输入向量的唯一组合,则必须在 expand.grid.

的输入处将它们设为 unique