使用 R 中数据框中的多列创建意外事件 table
Creating a contingency table using multiple columns in a data frame in R
我有一个如下所示的数据框:
structure(list(ab = c(0, 1, 1, 1, 1, 0, 0, 0, 1, 1), bc = c(1,
1, 1, 1, 0, 0, 0, 1, 0, 1), de = c(0, 0, 1, 1, 1, 0, 1, 1, 0,
1), cl = c(1, 2, 3, 1, 2, 3, 1, 2, 3, 2)), .Names = c("ab", "bc",
"de", "cl"), row.names = c(NA, -10L), class = "data.frame")
列 cl 表示聚类关联,变量 ab、bc 和 de 携带二进制答案,其中 1 表示是,0 - 否。
我正在尝试创建一个 table 交叉标签集群以及数据框中的所有其他列,即 ab、bc 和 de,其中集群成为列变量。期望的输出是这样的
1 2 3
ab 1 3 2
bc 2 3 1
de 2 3 1
我尝试了以下代码:
with(newdf, tapply(newdf[,c(3)], cl, sum))
这为我提供了一次仅交叉制表一列的值。我的数据框有 1600 多列和 1 个簇列。有人可以帮忙吗?
使用 dplyr
的一种方式是:
library(dplyr)
df %>%
#group by the varialbe cl
group_by(cl) %>%
#sum every column
summarize_each(funs(sum)) %>%
#select the three needed columns
select(ab, bc, de) %>%
#transpose the df
t
输出:
[,1] [,2] [,3]
ab 1 3 2
bc 2 3 1
de 2 3 1
您的数据是半长半宽格式,而您希望它是全宽格式。如果我们先将其转换为全长格式,这是最简单的:
library(reshape2)
df_long = melt(df, id.vars = "cl")
head(df_long)
# cl variable value
# 1 1 ab 0
# 2 2 ab 1
# 3 3 ab 1
# 4 1 ab 1
# 5 2 ab 1
# 6 3 ab 0
然后我们可以把它变成宽格式,使用sum
作为聚合函数:
dcast(df_long, variable ~ cl, fun.aggregate = sum)
# variable 1 2 3
# 1 ab 1 3 2
# 2 bc 2 3 1
# 3 de 2 3 1
在base
R:
t(sapply(data[,1:3],function(x) tapply(x,data[,4],sum)))
# 1 2 3
#ab 1 3 2
#bc 2 3 1
#de 2 3 1
您还可以结合使用 tidyr:gather
或 reshape2::melt
和 xtabs
来获得 table
library(tidyr)
xtabs(value ~ key + cl, data = gather(df, key, value, -cl))
## cl
## key 1 2 3
## ab 1 3 2
## bc 2 3 1
## de 2 3 1
如果您更喜欢使用管道
df %>%
gather(key, value, -cl) %>%
xtabs(value ~ key + cl, data = .)
只是按照 dickoa 写的代码使用 dplyr 的 pivot_longer(取代 gather)进行更新:
library(dplyr)
df %>%
pivot_longer(cols = ab:de,
names_to = "key",
values_to = "value") %>%
xtabs(value ~ key + cl, data = .)
我有一个如下所示的数据框:
structure(list(ab = c(0, 1, 1, 1, 1, 0, 0, 0, 1, 1), bc = c(1,
1, 1, 1, 0, 0, 0, 1, 0, 1), de = c(0, 0, 1, 1, 1, 0, 1, 1, 0,
1), cl = c(1, 2, 3, 1, 2, 3, 1, 2, 3, 2)), .Names = c("ab", "bc",
"de", "cl"), row.names = c(NA, -10L), class = "data.frame")
列 cl 表示聚类关联,变量 ab、bc 和 de 携带二进制答案,其中 1 表示是,0 - 否。
我正在尝试创建一个 table 交叉标签集群以及数据框中的所有其他列,即 ab、bc 和 de,其中集群成为列变量。期望的输出是这样的
1 2 3
ab 1 3 2
bc 2 3 1
de 2 3 1
我尝试了以下代码:
with(newdf, tapply(newdf[,c(3)], cl, sum))
这为我提供了一次仅交叉制表一列的值。我的数据框有 1600 多列和 1 个簇列。有人可以帮忙吗?
使用 dplyr
的一种方式是:
library(dplyr)
df %>%
#group by the varialbe cl
group_by(cl) %>%
#sum every column
summarize_each(funs(sum)) %>%
#select the three needed columns
select(ab, bc, de) %>%
#transpose the df
t
输出:
[,1] [,2] [,3]
ab 1 3 2
bc 2 3 1
de 2 3 1
您的数据是半长半宽格式,而您希望它是全宽格式。如果我们先将其转换为全长格式,这是最简单的:
library(reshape2)
df_long = melt(df, id.vars = "cl")
head(df_long)
# cl variable value
# 1 1 ab 0
# 2 2 ab 1
# 3 3 ab 1
# 4 1 ab 1
# 5 2 ab 1
# 6 3 ab 0
然后我们可以把它变成宽格式,使用sum
作为聚合函数:
dcast(df_long, variable ~ cl, fun.aggregate = sum)
# variable 1 2 3
# 1 ab 1 3 2
# 2 bc 2 3 1
# 3 de 2 3 1
在base
R:
t(sapply(data[,1:3],function(x) tapply(x,data[,4],sum)))
# 1 2 3
#ab 1 3 2
#bc 2 3 1
#de 2 3 1
您还可以结合使用 tidyr:gather
或 reshape2::melt
和 xtabs
来获得 table
library(tidyr)
xtabs(value ~ key + cl, data = gather(df, key, value, -cl))
## cl
## key 1 2 3
## ab 1 3 2
## bc 2 3 1
## de 2 3 1
如果您更喜欢使用管道
df %>%
gather(key, value, -cl) %>%
xtabs(value ~ key + cl, data = .)
只是按照 dickoa 写的代码使用 dplyr 的 pivot_longer(取代 gather)进行更新:
library(dplyr)
df %>%
pivot_longer(cols = ab:de,
names_to = "key",
values_to = "value") %>%
xtabs(value ~ key + cl, data = .)