使用 dcast 操作大型数据集
Manipulating large dataset with dcast
抱歉,如果这是一个重复的问题,但我找不到我正在寻找的具体答案。我有一个数据框,其中包含在给定旅行中捕获的不同物种的数量。下面是一个包含 5 个行程和 4 个物种的简化示例:
trip = c(1,1,1,2,2,3,3,3,3,4,5,5)
species = c("a","b","c","b","d","a","b","c","d","c","c","d")
count = c(5,7,3,1,8,10,1,4,3,1,2,10)
dat = cbind.data.frame(trip, species, count)
dat
> dat
trip species count
1 1 a 5
2 1 b 7
3 1 c 3
4 2 b 1
5 2 d 8
6 3 a 10
7 3 b 1
8 3 c 4
9 3 d 3
10 4 c 1
11 5 c 2
12 5 d 10
我只对每次旅行的物种 b 的计数感兴趣。所以我想操纵这个数据框,所以我最终得到一个看起来像这样的数据框:
trip2 = c(1,2,3,4,5)
species2 = c("b","b","b","b","b")
count2 = c(7,1,1,0,0)
dat2 = cbind.data.frame(trip2, species2, count2)
dat2
> dat2
trip2 species2 count2
1 1 b 7
2 2 b 1
3 3 b 1
4 4 b 0
5 5 b 0
我想保留所有行程,包括未观察到物种 b 的行程。所以我不能只按物种 b 对数据进行子集化。我知道我可以投射数据,所以物种是列,然后像这样删除其他物种的列:
library(dplyr)
library(reshape2)
test = dcast(dat, trip ~ species, value.var = "count", fun.aggregate = sum)
test
> test
trip a b c d
1 1 5 7 3 0
2 2 0 1 0 8
3 3 10 1 4 3
4 4 0 0 1 0
5 5 0 0 2 10
但是,我的真实数据集有数百种物种在数千次旅行中捕获,如果我尝试将那么多物种投射到列 R chokes。列太多了。有没有办法在 dcast 中指定我只想投射物种 b?还是有另一种不需要转换数据的方法来做到这一点?谢谢你。
这是一个 data.table
方法,我认为它对您来说会非常快:
library(data.table)
setDT(dat)
result <- dat[,.(species = "b", count = sum(.SD[species == "b",count])),by = trip]
result
trip species count
1: 1 b 7
2: 2 b 1
3: 3 b 1
4: 4 b 0
5: 5 b 0
我们可以使用tidyverse
library(dplyr)
library(tidyr)
dat %>%
filter(species == 'b') %>%
group_by(trip, species) %>%
summarise(count = sum(count)) %>%
ungroup %>%
complete(trip = unique(dat$trip), fill = list(species = 'b', count = 0))
# A tibble: 5 x 3
# trip species count
# <dbl> <chr> <dbl>
#1 1 b 7
#2 2 b 1
#3 3 b 1
#4 4 b 0
#5 5 b 0
抱歉,如果这是一个重复的问题,但我找不到我正在寻找的具体答案。我有一个数据框,其中包含在给定旅行中捕获的不同物种的数量。下面是一个包含 5 个行程和 4 个物种的简化示例:
trip = c(1,1,1,2,2,3,3,3,3,4,5,5)
species = c("a","b","c","b","d","a","b","c","d","c","c","d")
count = c(5,7,3,1,8,10,1,4,3,1,2,10)
dat = cbind.data.frame(trip, species, count)
dat
> dat
trip species count
1 1 a 5
2 1 b 7
3 1 c 3
4 2 b 1
5 2 d 8
6 3 a 10
7 3 b 1
8 3 c 4
9 3 d 3
10 4 c 1
11 5 c 2
12 5 d 10
我只对每次旅行的物种 b 的计数感兴趣。所以我想操纵这个数据框,所以我最终得到一个看起来像这样的数据框:
trip2 = c(1,2,3,4,5)
species2 = c("b","b","b","b","b")
count2 = c(7,1,1,0,0)
dat2 = cbind.data.frame(trip2, species2, count2)
dat2
> dat2
trip2 species2 count2
1 1 b 7
2 2 b 1
3 3 b 1
4 4 b 0
5 5 b 0
我想保留所有行程,包括未观察到物种 b 的行程。所以我不能只按物种 b 对数据进行子集化。我知道我可以投射数据,所以物种是列,然后像这样删除其他物种的列:
library(dplyr)
library(reshape2)
test = dcast(dat, trip ~ species, value.var = "count", fun.aggregate = sum)
test
> test
trip a b c d
1 1 5 7 3 0
2 2 0 1 0 8
3 3 10 1 4 3
4 4 0 0 1 0
5 5 0 0 2 10
但是,我的真实数据集有数百种物种在数千次旅行中捕获,如果我尝试将那么多物种投射到列 R chokes。列太多了。有没有办法在 dcast 中指定我只想投射物种 b?还是有另一种不需要转换数据的方法来做到这一点?谢谢你。
这是一个 data.table
方法,我认为它对您来说会非常快:
library(data.table)
setDT(dat)
result <- dat[,.(species = "b", count = sum(.SD[species == "b",count])),by = trip]
result
trip species count
1: 1 b 7
2: 2 b 1
3: 3 b 1
4: 4 b 0
5: 5 b 0
我们可以使用tidyverse
library(dplyr)
library(tidyr)
dat %>%
filter(species == 'b') %>%
group_by(trip, species) %>%
summarise(count = sum(count)) %>%
ungroup %>%
complete(trip = unique(dat$trip), fill = list(species = 'b', count = 0))
# A tibble: 5 x 3
# trip species count
# <dbl> <chr> <dbl>
#1 1 b 7
#2 2 b 1
#3 3 b 1
#4 4 b 0
#5 5 b 0