使用 `dplyr::group_by()` 为多个组获取 `chisq.test()$p.value`

Question

我正在尝试对 dplyr 框架内的几个组进行卡方检验。问题是，group_by() %>% summarise() 似乎没什么用。

模拟数据（与有问题的数据结构相同，但随机，所以p.values应该很高）

set.seed(1) data.frame(partido=sample(c("PRI", "PAN"), 100, 0.6), genero=sample(c("H", "M"), 100, 0.7), GM=sample(c("Bajo", "Muy bajo"), 100, 0.8)) -> foo

我想比较GM定义的几个组，看partido和genero的交叉表p.values有没有变化，条件是GM。

明显的 dplyr 方式应该是：

foo %>% group_by(GM) %>% summarise(pvalue=chisq.test(.$partido, .$genero)$p.value) #just the p.value, so summarise is happy

但是我得到了未分组数据的 p.values，只是时间，而不是每个 table 的 p.value：

# A tibble: 2 × 2 GM pvalue <fctr> <dbl> 1 Bajo 0.8660521 2 Muy bajo 0.8660521

使用过滤器测试每个组我得到：

foo %>% filter(GM=="Bajo") %$% table(partido, genero) %>% chisq.test()

Returns: X-squared = 0.015655, df = 1, p-value = 0.9004

foo %>% filter(GM=="Muy bajo") %$% table(partido, genero) %>% chisq.test()

Returns: X-squared = 0.50409, df = 1, p-value = 0.4777

dplyr:summarise() 适用于具有多个参数的函数，因此这不应该是问题所在：

data.frame(a=1:10, b=10:1, c=sample(c("Grupo 1", "Grupo 2"), 10, 0.5)) %>% group_by(c) %>% summarise(r=cor(a, b))

很有魅力。它似乎不适用于 chisq.test。

我设法使用 tidyr::nest() 和 purrr::map() 获得了我想要的嵌套模型，但我发现代码很麻烦——至少对我的学生来说是这样。实际上，我投入了很多时间来教他们（一个非常具有数学和编程挑战的小组）dplyr，这样他们就可以尽可能地避免向量函数。

foo %>% nest(-GM) %>% mutate(tabla=map(data, ~table(.))) %>% mutate(pvalue=map(tabla, ~chisq.test(.)$p.value)) %>% select(GM, pvalue) %>% unnest() A tibble: 2 × 2 GM pvalue <fctr> <dbl> 1 Bajo 0.9004276 2 Muy bajo 0.4777095

do() 也一样：

foo %>% group_by(GM) %>% do(tidy(chisq.test(.$partido, .$genero))) Source: local data frame [2 x 5] Groups: GM [2] GM statistic p.value parameter <fctr> <dbl> <dbl> <int> 1 Bajo 0.0156553 0.9004276 1 2 Muy bajo 0.5040878 0.4777095 1 # ... with 1 more variables: method <fctr>

如：

但是，为什么 group_by() 不能与 summarise(chisq.test()$p.value) 一起使用？

Answer 1

在 dplyr 中，您通常可以只使用不带引号的变量名来访问相关列，无论您是否在 groupby 中。因此，从不需要的 .$partido 和 .$genero 中删除 .$ 访问器，我得到：

foo %>% 
    group_by(GM) %>% 
    summarise(pvalue= chisq.test(partido, genero)$p.value) 

# A tibble: 2 × 2
        GM    pvalue
    <fctr>     <dbl>
1     Bajo 0.9004276
2 Muy bajo 0.4777095

使用 `dplyr::group_by()` 为多个组获取 `chisq.test()$p.value`

Get `chisq.test()$p.value` for several groups using `dplyr::group_by()`

r

chi-squared

dplyr

tidyverse