根据类别分析具有多项选择答案的多项选择题
Analyse multiple choice questions with multiple choice answers based on categories
我有一个看起来像这样的数据框
Country <- rep(c("Austria", "Austria","Belgium", "Belgium", "Spain", "Slovenia", "France"), times=3)
Institute <- rep(c("Inst 1","Inst 2","Inst 3","Inst 4","Inst 5","Inst 6","Inst 7"), times=3)
Ans <- rep(c(1,2,3,1,NA,2,2),times=3)
Category.1 <- rep(c("Cat 1", "Cat 2", "Cat 2", "Cat 2","Cat 2", "Cat 1", "Cat 1"),times=3)
Category.2 <- rep(c("P", "L", "M", "P", "P", "L", "M"),times=3)
qs <- c(rep("Q1.a-Some Text", times=7),rep("Q1.b-Some Text", times=7), rep("Q1.c-Some Text", times=7))
df <- data.frame(Country=Country,Institute=Institute, Category.1=Category.1, Category.2=Category.2, qs=qs, Ans=Ans)
df<-df %>% spread(qs,Ans)
head(df)
Country Institute Category.1 Category.2 Q1.a-Some Text Q1.b-Some Text Q1.c-Some Text
1 Austria Inst 1 Cat 1 P 1 1 1
2 Austria Inst 2 Cat 2 L 2 2 2
3 Belgium Inst 3 Cat 2 M 3 3 3
4 Belgium Inst 4 Cat 2 P 1 1 1
5 France Inst 7 Cat 1 M 2 2 2
6 Slovenia Inst 6 Cat 1 L 2 2 2
数据框的简短解释:有一些问题,比如 Q1,对于这个问题有多个 "Sub-questions",比如 a、b、c,其中对于这些 "sub-question/options" 中的每一个,受访者都被要求使用某种尺度来回答,在这个例子中是从 1 到 3。我的范围是计算每个子问题的每个响应的相对频率。所以,我使用这个函数:
multichoice<-function(data, question.prefix){
index<-grep(question.prefix, names(data)) # identifies the index for the available options in Q.12
cases<-length(index) # The number of possible options / columns
# Identify the range of possible answers for each question
# Step 1. Search for the min in each col and across each col choose the min
# step 2. Search for the max in each col and across each col choose the max
mn<-min(data[,index[1:cases]], na.rm=T)
mx<-max(data[,index[1:cases]], na.rm=T)
d = colSums(data[, index] != 0, na.rm = TRUE) # The number of elements across column vector, that are different from zero.
vec<-matrix(,nrow=length(mn:mx),ncol=cases)
for(j in 1:cases){
for(i in mn:mx){
vec[i,j]=sum(data[, index[j]] == i, na.rm = TRUE)/d[j] # This stores the relative responses for option j for the answer that is i
}
}
vec1<-as.data.frame(vec)
names(vec1)<-names(data[index])
vec1<-t(vec1)
return(vec1)
}
调用函数,我得到了想要的数据帧。
q1 <- as.data.frame(multichoiceq4(df,"^Q1"))
head(q1)
V1 V2 V3
Q1.a-Some Text 0.3333333 0.5 0.1666667
Q1.b-Some Text 0.3333333 0.5 0.1666667
Q1.c-Some Text 0.3333333 0.5 0.1666667
这表明对于选项 "a",33% 的参与者回答了 1,50% 的参与者回答了 2,依此类推...
我的问题
我想计算,相同但以类别为条件。所以,我想看看基于 category1, category2
的相对频率会是什么样子。有人可以建议我如何做到这一点吗?
我认为您可以通过将数据保持为长格式(即不要使用 df<-df %>% spread(qs,Ans)
)并使用 dplyr
来使您的代码更加灵活,例如:
这部分基本上重现了您的 multichoice
函数的功能:
df %>%
group_by(qs,Ans) %>%
summarize(total=n()) %>%
filter(!is.na(Ans)) %>%
mutate(frac=total/sum(total)) %>%
dcast(qs~Ans,value.var='frac')
# qs 1 2 3
# 1 Q1.a-Some Text 0.3333333 0.5 0.1666667
# 2 Q1.b-Some Text 0.3333333 0.5 0.1666667
# 3 Q1.c-Some Text 0.3333333 0.5 0.1666667
这个示例给出了如何修改它以考虑类别的示例。
df %>%
group_by(qs,Category.1,Ans) %>%
summarize(total=n()) %>%
filter(!is.na(Ans)) %>%
mutate(frac=total/sum(total)) %>%
dcast(qs~Ans+Category.1,value.var='frac')
# qs 1_Cat 1 1_Cat 2 2_Cat 1 2_Cat 2 3_Cat 2
# 1 Q1.a-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333
# 2 Q1.b-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333
# 3 Q1.c-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333
我有一个看起来像这样的数据框
Country <- rep(c("Austria", "Austria","Belgium", "Belgium", "Spain", "Slovenia", "France"), times=3)
Institute <- rep(c("Inst 1","Inst 2","Inst 3","Inst 4","Inst 5","Inst 6","Inst 7"), times=3)
Ans <- rep(c(1,2,3,1,NA,2,2),times=3)
Category.1 <- rep(c("Cat 1", "Cat 2", "Cat 2", "Cat 2","Cat 2", "Cat 1", "Cat 1"),times=3)
Category.2 <- rep(c("P", "L", "M", "P", "P", "L", "M"),times=3)
qs <- c(rep("Q1.a-Some Text", times=7),rep("Q1.b-Some Text", times=7), rep("Q1.c-Some Text", times=7))
df <- data.frame(Country=Country,Institute=Institute, Category.1=Category.1, Category.2=Category.2, qs=qs, Ans=Ans)
df<-df %>% spread(qs,Ans)
head(df)
Country Institute Category.1 Category.2 Q1.a-Some Text Q1.b-Some Text Q1.c-Some Text
1 Austria Inst 1 Cat 1 P 1 1 1
2 Austria Inst 2 Cat 2 L 2 2 2
3 Belgium Inst 3 Cat 2 M 3 3 3
4 Belgium Inst 4 Cat 2 P 1 1 1
5 France Inst 7 Cat 1 M 2 2 2
6 Slovenia Inst 6 Cat 1 L 2 2 2
数据框的简短解释:有一些问题,比如 Q1,对于这个问题有多个 "Sub-questions",比如 a、b、c,其中对于这些 "sub-question/options" 中的每一个,受访者都被要求使用某种尺度来回答,在这个例子中是从 1 到 3。我的范围是计算每个子问题的每个响应的相对频率。所以,我使用这个函数:
multichoice<-function(data, question.prefix){
index<-grep(question.prefix, names(data)) # identifies the index for the available options in Q.12
cases<-length(index) # The number of possible options / columns
# Identify the range of possible answers for each question
# Step 1. Search for the min in each col and across each col choose the min
# step 2. Search for the max in each col and across each col choose the max
mn<-min(data[,index[1:cases]], na.rm=T)
mx<-max(data[,index[1:cases]], na.rm=T)
d = colSums(data[, index] != 0, na.rm = TRUE) # The number of elements across column vector, that are different from zero.
vec<-matrix(,nrow=length(mn:mx),ncol=cases)
for(j in 1:cases){
for(i in mn:mx){
vec[i,j]=sum(data[, index[j]] == i, na.rm = TRUE)/d[j] # This stores the relative responses for option j for the answer that is i
}
}
vec1<-as.data.frame(vec)
names(vec1)<-names(data[index])
vec1<-t(vec1)
return(vec1)
}
调用函数,我得到了想要的数据帧。
q1 <- as.data.frame(multichoiceq4(df,"^Q1"))
head(q1)
V1 V2 V3
Q1.a-Some Text 0.3333333 0.5 0.1666667
Q1.b-Some Text 0.3333333 0.5 0.1666667
Q1.c-Some Text 0.3333333 0.5 0.1666667
这表明对于选项 "a",33% 的参与者回答了 1,50% 的参与者回答了 2,依此类推...
我的问题
我想计算,相同但以类别为条件。所以,我想看看基于 category1, category2
的相对频率会是什么样子。有人可以建议我如何做到这一点吗?
我认为您可以通过将数据保持为长格式(即不要使用 df<-df %>% spread(qs,Ans)
)并使用 dplyr
来使您的代码更加灵活,例如:
这部分基本上重现了您的 multichoice
函数的功能:
df %>%
group_by(qs,Ans) %>%
summarize(total=n()) %>%
filter(!is.na(Ans)) %>%
mutate(frac=total/sum(total)) %>%
dcast(qs~Ans,value.var='frac')
# qs 1 2 3
# 1 Q1.a-Some Text 0.3333333 0.5 0.1666667
# 2 Q1.b-Some Text 0.3333333 0.5 0.1666667
# 3 Q1.c-Some Text 0.3333333 0.5 0.1666667
这个示例给出了如何修改它以考虑类别的示例。
df %>%
group_by(qs,Category.1,Ans) %>%
summarize(total=n()) %>%
filter(!is.na(Ans)) %>%
mutate(frac=total/sum(total)) %>%
dcast(qs~Ans+Category.1,value.var='frac')
# qs 1_Cat 1 1_Cat 2 2_Cat 1 2_Cat 2 3_Cat 2
# 1 Q1.a-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333
# 2 Q1.b-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333
# 3 Q1.c-Some Text 0.3333333 0.3333333 0.6666667 0.3333333 0.3333333