在 R 中反转数据帧
Inverting Dataframe in R
这里举个例子。参与者将他们最喜欢的颜色排列在绿色、蓝色和红色之间。
id 代表参与者。每个参与者从 1-3 中对三种颜色进行排名(最好的=1,第二喜欢的=2,最不喜欢的=3)。想象一下数据如下所示:
id1 id2 id3
rank1 red green blue
rank2 green blue red
rank3 blue red green
我需要更改值,使其看起来像这样:
id1 id2 id3
green 2 1 3
blue 3 2 1
red 1 3 2
本质上,我想用颜色创建一行并记录它的排名。我的实际数据框是 25 列 x 100 行。我这样做是因为在版本 1 中数据输入更容易。
更改数据最简单的方法是什么?
sapply
一个 match
到数据框的每一列:
# example data
df <- data.frame(
id1 = c("red", "green", "blue"),
id2 = c("green", "blue", "red"),
id3 = c("blue", "red", "green"),
stringsAsFactors = FALSE
)
# create ranking dataframe
sapply(df, match, x=c("green", "blue", "red"))
结果:
id1 id2 id3
1 2 1 3
2 3 2 1
3 1 3 2
您可以为此使用 tidyr::spread
和 ::gather
:
dat <- read.table(header=TRUE, stringsAsFactors=FALSE, text='
id1 id2 id3
rank1 red green blue
rank2 green blue red
rank3 blue red green')
library(dplyr)
library(tidyr)
dat %>%
tibble::rownames_to_column() %>%
gather(id, color, -rowname) %>%
spread(id, rowname) %>%
tibble::column_to_rownames(var="color")
# id1 id2 id3
# blue rank3 rank2 rank1
# green rank2 rank1 rank3
# red rank1 rank3 rank2
(column_to_rownames
只是为了满足您的规范输出,我不建议使用行名称。)
如果需要,您可以插入命令以从行列中删除 rank
文本:
dat %>%
tibble::rownames_to_column() %>%
mutate(rowname = gsub("\D", "", rowname)) %>%
gather(id, color, -rowname) %>%
spread(id, rowname) %>%
tibble::column_to_rownames(var="color")
# id1 id2 id3
# blue 3 2 1
# green 2 1 3
# red 1 3 2
甚至 mutate(rowname = as.integer(gsub("\D", "", rowname)))
如果您需要它们是整数。
这里举个例子。参与者将他们最喜欢的颜色排列在绿色、蓝色和红色之间。 id 代表参与者。每个参与者从 1-3 中对三种颜色进行排名(最好的=1,第二喜欢的=2,最不喜欢的=3)。想象一下数据如下所示:
id1 id2 id3
rank1 red green blue
rank2 green blue red
rank3 blue red green
我需要更改值,使其看起来像这样:
id1 id2 id3
green 2 1 3
blue 3 2 1
red 1 3 2
本质上,我想用颜色创建一行并记录它的排名。我的实际数据框是 25 列 x 100 行。我这样做是因为在版本 1 中数据输入更容易。
更改数据最简单的方法是什么?
sapply
一个 match
到数据框的每一列:
# example data
df <- data.frame(
id1 = c("red", "green", "blue"),
id2 = c("green", "blue", "red"),
id3 = c("blue", "red", "green"),
stringsAsFactors = FALSE
)
# create ranking dataframe
sapply(df, match, x=c("green", "blue", "red"))
结果:
id1 id2 id3
1 2 1 3
2 3 2 1
3 1 3 2
您可以为此使用 tidyr::spread
和 ::gather
:
dat <- read.table(header=TRUE, stringsAsFactors=FALSE, text='
id1 id2 id3
rank1 red green blue
rank2 green blue red
rank3 blue red green')
library(dplyr)
library(tidyr)
dat %>%
tibble::rownames_to_column() %>%
gather(id, color, -rowname) %>%
spread(id, rowname) %>%
tibble::column_to_rownames(var="color")
# id1 id2 id3
# blue rank3 rank2 rank1
# green rank2 rank1 rank3
# red rank1 rank3 rank2
(column_to_rownames
只是为了满足您的规范输出,我不建议使用行名称。)
如果需要,您可以插入命令以从行列中删除 rank
文本:
dat %>%
tibble::rownames_to_column() %>%
mutate(rowname = gsub("\D", "", rowname)) %>%
gather(id, color, -rowname) %>%
spread(id, rowname) %>%
tibble::column_to_rownames(var="color")
# id1 id2 id3
# blue 3 2 1
# green 2 1 3
# red 1 3 2
甚至 mutate(rowname = as.integer(gsub("\D", "", rowname)))
如果您需要它们是整数。