R:将大数据帧转换为成对相关矩阵
R: Converting Large Dataframe to Pairwise Correlation Matrix
我有以下形式的数据:
df <- data.frame(group = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5),rep(5,5)),
thing = c(rep(c('a','b','c','d','e'),5)),
score = c(1,1,0,0,1,1,1,0,1,0,1,1,1,0,0,0,1,1,0,1,0,1,0,1,0))
它报告 "score" 为每个 "thing" 一堆 "group"s。
我想创建相关矩阵,显示所有 "thing" 的成对得分相关性,基于它们在组间得分的相关性:
thing_a thing_b thing_c thing_d thing_e
thing_a 1 . . . .
thing_b corr 1 . . .
thing_c corr corr 1 . .
thing_d corr corr corr 1 .
thing_e corr corr corr corr 1
例如,事物 "a" 和事物 "b" 之间相关性的基础数据为:
group thing_a_score thing_b_score
1 1 1
2 1 1
3 1 1
4 0 1
5 0 1
实际上,唯一组的数量约为 1,000,事物的数量约为 10,000,因此我需要一种比蛮力循环更有效的方法。
我不需要生成的相关矩阵位于单个矩阵中,甚至不需要位于矩阵本身中(即,它可以是一组具有三列的数据集“thing_1 thing_2 corr
").
您可以先dcast
您的数据,然后使用cor()
函数得到相关矩阵:
library(data.table)
dt <- data.table(
group = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5),rep(5,5)),
thing = c(rep(c('a','b','c','d','e'),5)),
score = c(1,1,0,0,1,1,1,0,1,0,1,1,1,0,0,0,1,1,0,1,0,1,0,1,0)
)
dt
m <- dcast(dt, group ~ thing, value.var = "score")
cor(m[, -1])
data.table
通常是高性能的,但如果它不适合您,请编写一个可生成大量数据的可重现示例,有人可能会在不同的解决方案上对速度和内存进行基准测试。
我有以下形式的数据:
df <- data.frame(group = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5),rep(5,5)),
thing = c(rep(c('a','b','c','d','e'),5)),
score = c(1,1,0,0,1,1,1,0,1,0,1,1,1,0,0,0,1,1,0,1,0,1,0,1,0))
它报告 "score" 为每个 "thing" 一堆 "group"s。
我想创建相关矩阵,显示所有 "thing" 的成对得分相关性,基于它们在组间得分的相关性:
thing_a thing_b thing_c thing_d thing_e
thing_a 1 . . . .
thing_b corr 1 . . .
thing_c corr corr 1 . .
thing_d corr corr corr 1 .
thing_e corr corr corr corr 1
例如,事物 "a" 和事物 "b" 之间相关性的基础数据为:
group thing_a_score thing_b_score
1 1 1
2 1 1
3 1 1
4 0 1
5 0 1
实际上,唯一组的数量约为 1,000,事物的数量约为 10,000,因此我需要一种比蛮力循环更有效的方法。
我不需要生成的相关矩阵位于单个矩阵中,甚至不需要位于矩阵本身中(即,它可以是一组具有三列的数据集“thing_1 thing_2 corr
").
您可以先dcast
您的数据,然后使用cor()
函数得到相关矩阵:
library(data.table)
dt <- data.table(
group = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5),rep(5,5)),
thing = c(rep(c('a','b','c','d','e'),5)),
score = c(1,1,0,0,1,1,1,0,1,0,1,1,1,0,0,0,1,1,0,1,0,1,0,1,0)
)
dt
m <- dcast(dt, group ~ thing, value.var = "score")
cor(m[, -1])
data.table
通常是高性能的,但如果它不适合您,请编写一个可生成大量数据的可重现示例,有人可能会在不同的解决方案上对速度和内存进行基准测试。