如何根据每行中的值对数据进行透视
How to pivot data based on the values in each row
假设我们得到了这样一个数据框:
> dput(data)
structure(list(Location = structure(1:18, .Label = c("a", "b",
"c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o",
"p", "q", "r"), class = "factor"), C1 = c(7L, NA, 3L, 7L, NA,
NA, 2L, 7L, NA, NA, NA, NA, 2L, NA, NA, NA, NA, NA), C2 = c(NA,
8L, 1L, 1L, NA, 9L, 1L, 1L, NA, 1L, NA, 4L, 1L, NA, NA, NA, NA,
1L), C3 = c(3L, 1L, 7L, NA, NA, NA, 7L, 2L, 5L, 4L, 9L, 10L,
3L, 2L, 1L, 7L, NA, NA), C4 = c(NA, 2L, NA, 2L, 2L, 1L, 1L, 8L,
8L, 5L, 6L, 15L, 15L, 5L, 5L, 2L, 15L, NA), C5 = c(NA, NA, NA,
NA, 8L, NA, 2L, NA, 4L, 10L, 3L, 3L, 1L, NA, NA, 3L, NA, 8L)), class = "data.frame", row.names = c(NA,
-18L))
根据记录数据的方式,我们有一个 Location
列,它代表一个已知的具有水平 a:r
的分组变量。然后我们有列 C1:C5
,它们本身代表 5 个簇,每个 Location
的样本根据某个任意变量进行分类。因此,每列的总和表示每个 Location
中有多少样本。例如Location == a
有10个样本,其中7个被分类到C1
,3个被分类到C3
.
我想创建一个意外事件 table 来执行独立性的卡方检验,看看 Location
和集群分配是否独立。当数据以这种格式记录时,我们如何对数据进行reshape来做到这一点?
更新:
除非有一种更简单的方法可以根据每行中的值(可以直接对其执行卡方检验)从当前格式中获取意外事件 table,否则我希望我们必须将其转换为转换为整齐的格式,其中有两列 Location
和 Cluster
以及每个原始样本的一个观察值,因此输出将如下所示:
#there would be 10 observations for location a, 11 observations for b, and so on
Location Cluster
a C1
a C1
a C1
a C1
a C1
a C1
a C1
a C3
a C3
a C3
b C2
b C2
b C2
b C2
b C2
b C2
b C2
b C2
b C3
b C4
b C4
....
据此我们可以做出应急 table 并执行卡方检验
我们可以重塑为 'long' 格式并使用 uncount
复制行
library(dplyr)
library(tidyr)
data %>%
pivot_longer(cols = -Location, names_to = 'Cluster', values_drop_na = TRUE) %>%
uncount(value)
# A tibble: 251 x 2
# Location Cluster
# <fct> <chr>
# 1 a C1
# 2 a C1
# 3 a C1
# 4 a C1
# 5 a C1
# 6 a C1
# 7 a C1
# 8 a C3
# 9 a C3
#10 a C3
# … with 241 more rows
假设我们得到了这样一个数据框:
> dput(data)
structure(list(Location = structure(1:18, .Label = c("a", "b",
"c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o",
"p", "q", "r"), class = "factor"), C1 = c(7L, NA, 3L, 7L, NA,
NA, 2L, 7L, NA, NA, NA, NA, 2L, NA, NA, NA, NA, NA), C2 = c(NA,
8L, 1L, 1L, NA, 9L, 1L, 1L, NA, 1L, NA, 4L, 1L, NA, NA, NA, NA,
1L), C3 = c(3L, 1L, 7L, NA, NA, NA, 7L, 2L, 5L, 4L, 9L, 10L,
3L, 2L, 1L, 7L, NA, NA), C4 = c(NA, 2L, NA, 2L, 2L, 1L, 1L, 8L,
8L, 5L, 6L, 15L, 15L, 5L, 5L, 2L, 15L, NA), C5 = c(NA, NA, NA,
NA, 8L, NA, 2L, NA, 4L, 10L, 3L, 3L, 1L, NA, NA, 3L, NA, 8L)), class = "data.frame", row.names = c(NA,
-18L))
根据记录数据的方式,我们有一个 Location
列,它代表一个已知的具有水平 a:r
的分组变量。然后我们有列 C1:C5
,它们本身代表 5 个簇,每个 Location
的样本根据某个任意变量进行分类。因此,每列的总和表示每个 Location
中有多少样本。例如Location == a
有10个样本,其中7个被分类到C1
,3个被分类到C3
.
我想创建一个意外事件 table 来执行独立性的卡方检验,看看 Location
和集群分配是否独立。当数据以这种格式记录时,我们如何对数据进行reshape来做到这一点?
更新:
除非有一种更简单的方法可以根据每行中的值(可以直接对其执行卡方检验)从当前格式中获取意外事件 table,否则我希望我们必须将其转换为转换为整齐的格式,其中有两列 Location
和 Cluster
以及每个原始样本的一个观察值,因此输出将如下所示:
#there would be 10 observations for location a, 11 observations for b, and so on
Location Cluster
a C1
a C1
a C1
a C1
a C1
a C1
a C1
a C3
a C3
a C3
b C2
b C2
b C2
b C2
b C2
b C2
b C2
b C2
b C3
b C4
b C4
....
据此我们可以做出应急 table 并执行卡方检验
我们可以重塑为 'long' 格式并使用 uncount
复制行
library(dplyr)
library(tidyr)
data %>%
pivot_longer(cols = -Location, names_to = 'Cluster', values_drop_na = TRUE) %>%
uncount(value)
# A tibble: 251 x 2
# Location Cluster
# <fct> <chr>
# 1 a C1
# 2 a C1
# 3 a C1
# 4 a C1
# 5 a C1
# 6 a C1
# 7 a C1
# 8 a C3
# 9 a C3
#10 a C3
# … with 241 more rows