总结但保持长度可变(dplyr)
Summarise but keep length variable (dplyr)
基本的 dplyr 问题...受访者可以 select 他们使用的多家公司。例如:
library(dplyr)
test <- tibble(
CompanyA = rep(c(0:1),5),
CompanyB = rep(c(1),10),
CompanyC = c(1,1,1,1,0,0,1,1,1,1)
)
test
如果这是一道强制选择题——即受访者只能做出一个 select离子——我会做以下基本总结 table:
test %>%
summarise_all(funs(sum), na.rm = TRUE) %>%
gather(Response, n) %>%
arrange(desc(n)) %>%
mutate("%" = round(100*n/sum(n)))
但是请注意,“%”列不是我想要的。相反,我正在寻找 每个单独的响应选项 总受访者的比例(因为他们可以制造多个 select 离子)。
我尝试在 summarise_all
命令之前添加 mutate(totalrows = nrow(.)) %>%
。这将允许我在以后的 mutate
命令中使用该变量作为分母。但是,summarise_all
消除了 "totalrows" var.
此外,如果有更好的方法,我愿意接受。
要获得当变量为二元变量时选择该选项的受访者比例,您可以取均值。要对您的测试数据执行此操作,您可以使用 sapply
:
sapply(test, mean)
CompanyA CompanyB CompanyC
0.5 1.0 0.8
如果您想以更复杂的方式执行此操作(假设您的数据不是二进制编码的,而是存储为 1
和 2
),您可以使用以下方法执行此操作:
test %>%
gather(key='Company') %>%
group_by(Company) %>%
summarise(proportion = sum(value == 1) / n())
# A tibble: 3 x 2
Company proportion
<chr> <dbl>
1 CompanyA 0.5
2 CompanyB 1
3 CompanyC 0.8
这是一个使用 tidyr::gather
的解决方案:
test %>%
gather(Company, response) %>%
group_by(Company) %>%
summarise(`%` = 100 * sum(response) / n())
如果您将所有函数放在 summarise 中的列表中,那么这将起作用。不过,您需要快速整理一下。
test %>%
summarise_all(
list(
rows = length,
n = function(x){sum(x, na.rm = T)},
perc = function(x){sum(x,na.rm = T)/length(x)}
)) %>%
tidyr::gather(Response, n) %>%
tidyr::separate(Response, c("Company", "Metric"), '_') %>%
tidyr::spread(Metric, n)
你会得到这个
Company n perc rows
<chr> <dbl> <dbl> <dbl>
1 CompanyA 5 0.5 10
2 CompanyB 10 1 10
3 CompanyC 8 0.8 10
基本的 dplyr 问题...受访者可以 select 他们使用的多家公司。例如:
library(dplyr)
test <- tibble(
CompanyA = rep(c(0:1),5),
CompanyB = rep(c(1),10),
CompanyC = c(1,1,1,1,0,0,1,1,1,1)
)
test
如果这是一道强制选择题——即受访者只能做出一个 select离子——我会做以下基本总结 table:
test %>%
summarise_all(funs(sum), na.rm = TRUE) %>%
gather(Response, n) %>%
arrange(desc(n)) %>%
mutate("%" = round(100*n/sum(n)))
但是请注意,“%”列不是我想要的。相反,我正在寻找 每个单独的响应选项 总受访者的比例(因为他们可以制造多个 select 离子)。
我尝试在 summarise_all
命令之前添加 mutate(totalrows = nrow(.)) %>%
。这将允许我在以后的 mutate
命令中使用该变量作为分母。但是,summarise_all
消除了 "totalrows" var.
此外,如果有更好的方法,我愿意接受。
要获得当变量为二元变量时选择该选项的受访者比例,您可以取均值。要对您的测试数据执行此操作,您可以使用 sapply
:
sapply(test, mean)
CompanyA CompanyB CompanyC
0.5 1.0 0.8
如果您想以更复杂的方式执行此操作(假设您的数据不是二进制编码的,而是存储为 1
和 2
),您可以使用以下方法执行此操作:
test %>%
gather(key='Company') %>%
group_by(Company) %>%
summarise(proportion = sum(value == 1) / n())
# A tibble: 3 x 2
Company proportion
<chr> <dbl>
1 CompanyA 0.5
2 CompanyB 1
3 CompanyC 0.8
这是一个使用 tidyr::gather
的解决方案:
test %>%
gather(Company, response) %>%
group_by(Company) %>%
summarise(`%` = 100 * sum(response) / n())
如果您将所有函数放在 summarise 中的列表中,那么这将起作用。不过,您需要快速整理一下。
test %>%
summarise_all(
list(
rows = length,
n = function(x){sum(x, na.rm = T)},
perc = function(x){sum(x,na.rm = T)/length(x)}
)) %>%
tidyr::gather(Response, n) %>%
tidyr::separate(Response, c("Company", "Metric"), '_') %>%
tidyr::spread(Metric, n)
你会得到这个
Company n perc rows
<chr> <dbl> <dbl> <dbl>
1 CompanyA 5 0.5 10
2 CompanyB 10 1 10
3 CompanyC 8 0.8 10