使用 dplyr 计算调查数据集的积极响应率

Question

我有一个大型调查数据集，如下所示：

          trust09 q16a q16b q16c q16f q16g q23e
1         5A3    3    3    3    4    3    3
2         5A3    2    2    2    2    3    2
3         5A3    4    4    4    5    5    5
4         5A3    3    3    2    4    4    3
5         5A3   NA   NA   NA   NA   NA   NA
6         5A3    4    4    4    4    4    3
....
....
159524     TAN    2    2    3    4    4    3
159525     TAN    4    3    2    1    3    3
159526     TAN    4    4    4    4    4    4
159527     TAN    4   NA    4    2    3    4
159528     TAN    4    4    4    4    4    4
159529     TAN    4    4    4    5    4    5

trust09 是医院或组织的代码，其余栏目是从非常不同意到非常同意的调查问题，分别从 1 到 5 打分。

每一行对应来自某家医院的受访者的回复。

根据这些数据，我想计算每家医院每个调查问题的阳性反应率或 PRR，即回答 'Agree' (4) 或 'Strongly Agree' (5 ) 并表示这是占总数的百分比。的受访者。

我可以得到总号。从以下代码中很容易获得受访者：

df0 <- nss08 %>% select(trust09, q16a, q16b, q16c, q16f, q16g, q23e) %>% 
    group_by(trust09) %>%
    summarise_all(funs(length(.)))

这给了我以下 table：

  trust09  q16a  q16b  q16c  q16f  q16g  q23e
<chr> <int> <int> <int> <int> <int> <int>
1     5A3   414   414   414   414   414   414
2     5A4   298   298   298   298   298   298
3     5A5   271   271   271   271   271   271
4     5A7   384   384   384   384   384   384
5     5A8   343   343   343   343   343   343
6     5A9   502   502   502   502   502   502

我可以使用以下代码轻松计算单个调查问题的 'Agree'(4) 和 'Strongly Agree' (5) 的答复数量：

df1 <- nss08 %>%
  select(trust09, q16a) %>%
  group_by(trust09) %>%
  filter(q16a == 4|q16a == 5) %>%
  summarise_all(funs(length(.)))

给出了这个示例数据：

  trust09  q16a
<chr> <int>
1     5A3   124
2     5A4    65
3     5A5   107
4     5A7   142
5     5A8   126
6     5A9   159
....

我也得到了相同的结果：

aggregate(q16a ~ trust09, data = nss08[nss08$q16a == 4|nss08$q16a == 5, ], length)

然后我简单地合并这两个数据并计算 variable/question q16a 的 PRR，即没有。回答此问题 'Agree' (4) 或 'Strongly Agree' (5) 的受访者中，除以该问题的总回答，然后乘以 100。

当我希望同时对所有剩余变量执行相同操作而不是简单地编写对应于一个变量的一段代码时，就会出现问题。

我尝试了以下方法，但收到错误消息：

myList <- vector("list", length = length(myVars))

for (x in seq_along(myVars)){
myList[x] <- aggregate(myVars[x] ~ trust09, data = nss08[nss08$myVars[,x] == 4|nss08$myVars[,x] == 5, ], length)}

我也试过这个没有成功:

for (x in seq_along(myVars)){
 myList[[x]] <- nss08 %>%
select(trust09, myVars[x]) %>%
group_by(trust09) %>%
filter(myVars[x] == 4|myVars[x] == 5) %>%
summarise(length(myVars[x]))
}

也许，你可以从代码中看出我在这里试图做什么。

我想知道如何使用更少的代码更有效地完成整个过程，并最终创建一个包含每个 variables/survey 问题的正面响应率的数据框？

谢谢。

Answer 1

假设你的数据框包含 trust09 并且所有其他列对应于你要汇总的问题，你可以使用 summarize_all 并计算 4 和 [=15= 的数量] 回复 sum(col %in% 4:5, na.rm=TRUE) 直接除以 length(col):

df %>% group_by(trust09) %>% summarise_all(~ sum(. %in% 4:5, na.rm = T)/length(.))
# here . refers to all other columns individually except the group variable

# A tibble: 2 x 7
#  trust09      q16a      q16b      q16c      q16f      q16g      q23e
#   <fctr>     <dbl>     <dbl>     <dbl>     <dbl>     <dbl>     <dbl>
#1     5A3 0.3333333 0.3333333 0.3333333 0.6666667 0.5000000 0.1666667
#2     TAN 0.8333333 0.5000000 0.6666667 0.6666667 0.6666667 0.6666667

使用的数据如下：

dput(df)
structure(list(trust09 = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L, 2L, 2L), .Label = c("5A3", "TAN"), class = "factor"), 
    q16a = c(3L, 2L, 4L, 3L, NA, 4L, 2L, 4L, 4L, 4L, 4L, 4L), 
    q16b = c(3L, 2L, 4L, 3L, NA, 4L, 2L, 3L, 4L, NA, 4L, 4L), 
    q16c = c(3L, 2L, 4L, 2L, NA, 4L, 3L, 2L, 4L, 4L, 4L, 4L), 
    q16f = c(4L, 2L, 5L, 4L, NA, 4L, 4L, 1L, 4L, 2L, 4L, 5L), 
    q16g = c(3L, 3L, 5L, 4L, NA, 4L, 4L, 3L, 4L, 3L, 4L, 4L), 
    q23e = c(3L, 2L, 5L, 3L, NA, 3L, 3L, 3L, 4L, 4L, 4L, 5L)), .Names = c("trust09", 
"q16a", "q16b", "q16c", "q16f", "q16g", "q23e"), class = "data.frame", row.names = c(NA, 
12L))

Answer 2

根据你的dplyr代码，我做了这个函数，你可以在forloop或apply

中调用它

xx=function(arg){
  var=quo(arg)
  #print(var)
  df1=df %>%
    select(trust09, !!!quos(arg)) %>%
    group_by(trust09) %>%
    filter_(.dots=paste0(arg,'==','4|',arg,'== 5'))%>%
    summarise(length(!!var))
  return(df1)
}



xx('q16a')

<quosure: frame>
~arg
# A tibble: 2 x 2
  trust09 `length(arg)`
    <chr>         <int>
1     5A3             1
2     TAN             1

使用 dplyr 计算调查数据集的积极响应率

Computing the positive response rate for survey dataset using dplyr

r

survey

summarization

dplyr