使用 `dplyr::group_by()` 为多个组获取 `chisq.test()$p.value`
Get `chisq.test()$p.value` for several groups using `dplyr::group_by()`
我正在尝试对 dplyr 框架内的几个组进行卡方检验。问题是,group_by() %>% summarise()
似乎没什么用。
模拟数据(与有问题的数据结构相同,但随机,所以p.values应该很高)
set.seed(1)
data.frame(partido=sample(c("PRI", "PAN"), 100, 0.6),
genero=sample(c("H", "M"), 100, 0.7),
GM=sample(c("Bajo", "Muy bajo"), 100, 0.8)) -> foo
我想比较GM定义的几个组,看partido和genero的交叉表p.values有没有变化,条件是GM。
明显的 dplyr 方式应该是:
foo %>%
group_by(GM) %>%
summarise(pvalue=chisq.test(.$partido, .$genero)$p.value) #just the p.value, so summarise is happy
但是我得到了未分组数据的 p.values,只是时间,而不是每个 table 的 p.value:
# A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.8660521
2 Muy bajo 0.8660521
使用过滤器测试每个组我得到:
foo %>%
filter(GM=="Bajo") %$%
table(partido, genero) %>%
chisq.test()
Returns: X-squared = 0.015655, df = 1, p-value = 0.9004
foo %>%
filter(GM=="Muy bajo") %$%
table(partido, genero) %>% chisq.test()
Returns: X-squared = 0.50409, df = 1, p-value = 0.4777
dplyr:summarise()
适用于具有多个参数的函数,因此这不应该是问题所在:
data.frame(a=1:10, b=10:1, c=sample(c("Grupo 1", "Grupo 2"), 10, 0.5)) %>%
group_by(c) %>%
summarise(r=cor(a, b))
很有魅力。它似乎不适用于 chisq.test。
我设法使用 tidyr::nest()
和 purrr::map()
获得了我想要的嵌套模型,但我发现代码很麻烦——至少对我的学生来说是这样。实际上,我投入了很多时间来教他们(一个非常具有数学和编程挑战的小组)dplyr,这样他们就可以尽可能地避免向量函数。
foo %>%
nest(-GM) %>%
mutate(tabla=map(data, ~table(.))) %>%
mutate(pvalue=map(tabla, ~chisq.test(.)$p.value)) %>%
select(GM, pvalue) %>%
unnest()
A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.9004276
2 Muy bajo 0.4777095
do()
也一样:
foo %>%
group_by(GM) %>%
do(tidy(chisq.test(.$partido, .$genero)))
Source: local data frame [2 x 5]
Groups: GM [2]
GM statistic p.value parameter
<fctr> <dbl> <dbl> <int>
1 Bajo 0.0156553 0.9004276 1
2 Muy bajo 0.5040878 0.4777095 1
# ... with 1 more variables: method <fctr>
如:
但是,为什么 group_by()
不能与 summarise(chisq.test()$p.value)
一起使用?
在 dplyr
中,您通常可以只使用不带引号的变量名来访问相关列,无论您是否在 groupby 中。因此,从不需要的 .$partido
和 .$genero
中删除 .$
访问器,我得到:
foo %>%
group_by(GM) %>%
summarise(pvalue= chisq.test(partido, genero)$p.value)
# A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.9004276
2 Muy bajo 0.4777095
我正在尝试对 dplyr 框架内的几个组进行卡方检验。问题是,group_by() %>% summarise()
似乎没什么用。
模拟数据(与有问题的数据结构相同,但随机,所以p.values应该很高)
set.seed(1)
data.frame(partido=sample(c("PRI", "PAN"), 100, 0.6),
genero=sample(c("H", "M"), 100, 0.7),
GM=sample(c("Bajo", "Muy bajo"), 100, 0.8)) -> foo
我想比较GM定义的几个组,看partido和genero的交叉表p.values有没有变化,条件是GM。
明显的 dplyr 方式应该是:
foo %>%
group_by(GM) %>%
summarise(pvalue=chisq.test(.$partido, .$genero)$p.value) #just the p.value, so summarise is happy
但是我得到了未分组数据的 p.values,只是时间,而不是每个 table 的 p.value:
# A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.8660521
2 Muy bajo 0.8660521
使用过滤器测试每个组我得到:
foo %>%
filter(GM=="Bajo") %$%
table(partido, genero) %>%
chisq.test()
Returns: X-squared = 0.015655, df = 1, p-value = 0.9004
foo %>%
filter(GM=="Muy bajo") %$%
table(partido, genero) %>% chisq.test()
Returns: X-squared = 0.50409, df = 1, p-value = 0.4777
dplyr:summarise()
适用于具有多个参数的函数,因此这不应该是问题所在:
data.frame(a=1:10, b=10:1, c=sample(c("Grupo 1", "Grupo 2"), 10, 0.5)) %>%
group_by(c) %>%
summarise(r=cor(a, b))
很有魅力。它似乎不适用于 chisq.test。
我设法使用 tidyr::nest()
和 purrr::map()
获得了我想要的嵌套模型,但我发现代码很麻烦——至少对我的学生来说是这样。实际上,我投入了很多时间来教他们(一个非常具有数学和编程挑战的小组)dplyr,这样他们就可以尽可能地避免向量函数。
foo %>%
nest(-GM) %>%
mutate(tabla=map(data, ~table(.))) %>%
mutate(pvalue=map(tabla, ~chisq.test(.)$p.value)) %>%
select(GM, pvalue) %>%
unnest()
A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.9004276
2 Muy bajo 0.4777095
do()
也一样:
foo %>%
group_by(GM) %>%
do(tidy(chisq.test(.$partido, .$genero)))
Source: local data frame [2 x 5]
Groups: GM [2]
GM statistic p.value parameter
<fctr> <dbl> <dbl> <int>
1 Bajo 0.0156553 0.9004276 1
2 Muy bajo 0.5040878 0.4777095 1
# ... with 1 more variables: method <fctr>
如:
但是,为什么 group_by()
不能与 summarise(chisq.test()$p.value)
一起使用?
在 dplyr
中,您通常可以只使用不带引号的变量名来访问相关列,无论您是否在 groupby 中。因此,从不需要的 .$partido
和 .$genero
中删除 .$
访问器,我得到:
foo %>%
group_by(GM) %>%
summarise(pvalue= chisq.test(partido, genero)$p.value)
# A tibble: 2 × 2
GM pvalue
<fctr> <dbl>
1 Bajo 0.9004276
2 Muy bajo 0.4777095