如何对 data.frame 进行子集化?
How to subset a data.frame?
我有这样的数据集
a <- data.frame(var1 = c("patientA", "patientA", "patientA", "patientB", "patientB", "patientB", "patientB"),
var2 = as.Date(c("2015-01-02","2015-01-04","2015-02-02","2015-02-06","2015-01-02","2015-01-07","2015-04-02")),
var3 = c(F, T, F, F, F, T, F)
)
sequ <- rle(as.character(a$var1))
a$sequ <- sequence(sequ$lengths)
生产
> a
var1 var2 var3 sequ
1 patientA 2015-01-02 FALSE 1
2 patientA 2015-01-04 TRUE 2
3 patientA 2015-02-02 FALSE 3
4 patientB 2015-02-06 FALSE 1
5 patientB 2015-01-02 FALSE 2
6 patientB 2015-01-07 TRUE 3
7 patientB 2015-04-02 FALSE 4
我如何subset/filter这个数据集,以便我得到所有 var3 == TRUE 和 var2 日期值大于 var3 == TRUE 的行中的行(患者,var1?我试过
subset(a, (var3 == TRUE) & (var2 > var3))
但这不会产生正确的结果集。正确的是
# var1 var2 var3 sequ
# 1 patientA 2015-01-04 TRUE 2
# 2 patientA 2015-02-02 FALSE 3
# 3 patientB 2015-02-06 FALSE 1
# 4 patientB 2015-01-07 TRUE 3
# 5 patientB 2015-04-02 FALSE 4
您可以尝试 data.table
。在这里,我们将 'data.frame' 转换为 'data.table' (setDT(a)
),按 'var1' 分组,我们得到大于或等于 'var2' 元素的逻辑索引到相应的 'var2' 个元素,其中 'var3' 为 TRUE 并子集数据集 .SD
。
library(data.table)
setDT(a)[,.SD[var2 >= var2[var3]], var1]
# var1 var2 var3 sequ
#1: patientA 2015-01-04 TRUE 2
#2: patientA 2015-02-02 FALSE 3
#3: patientB 2015-02-06 FALSE 1
#4: patientB 2015-01-07 TRUE 3
#5: patientB 2015-04-02 FALSE 4
使用base R
的选项(假设数据按'var1'排序)
a[with(a, var2>=rep(var2[var3], table(var1))),]
# var1 var2 var3 sequ
#2 patientA 2015-01-04 TRUE 2
#3 patientA 2015-02-02 FALSE 3
#4 patientB 2015-02-06 FALSE 1
#6 patientB 2015-01-07 TRUE 3
#7 patientB 2015-04-02 FALSE 4
我在 var3
为 TRUE
时添加了一个包含日期的列,根据它进行过滤,然后将其放在末尾。
library(dplyr)
a %>% group_by(var1)%>%
mutate(truedate = first(var2[var3])) %>%
filter(var2 >= truedate) %>%
select(-truedate)
# Source: local data frame [5 x 4]
# Groups: var1
# var1 var2 var3 sequ
# 1 patientA 2015-01-04 TRUE 2
# 2 patientA 2015-02-02 FALSE 3
# 3 patientB 2015-02-06 FALSE 1
# 4 patientB 2015-01-07 TRUE 3
# 5 patientB 2015-04-02 FALSE 4
A base-R 解决方案:首先,不要理会你的rle
/sequ
事情。相反,对数据进行排序:
a <- a[order(a$var1,a$var2),]
查找所选行:
myrows <- tapply(
1:nrow(a),
a$var1,
function(ivec){
istar <- ivec[a$var3[ivec]]
ivec[ivec>=istar]
})
子集 a[unlist(myrows),]
。
我有这样的数据集
a <- data.frame(var1 = c("patientA", "patientA", "patientA", "patientB", "patientB", "patientB", "patientB"),
var2 = as.Date(c("2015-01-02","2015-01-04","2015-02-02","2015-02-06","2015-01-02","2015-01-07","2015-04-02")),
var3 = c(F, T, F, F, F, T, F)
)
sequ <- rle(as.character(a$var1))
a$sequ <- sequence(sequ$lengths)
生产
> a
var1 var2 var3 sequ
1 patientA 2015-01-02 FALSE 1
2 patientA 2015-01-04 TRUE 2
3 patientA 2015-02-02 FALSE 3
4 patientB 2015-02-06 FALSE 1
5 patientB 2015-01-02 FALSE 2
6 patientB 2015-01-07 TRUE 3
7 patientB 2015-04-02 FALSE 4
我如何subset/filter这个数据集,以便我得到所有 var3 == TRUE 和 var2 日期值大于 var3 == TRUE 的行中的行(患者,var1?我试过
subset(a, (var3 == TRUE) & (var2 > var3))
但这不会产生正确的结果集。正确的是
# var1 var2 var3 sequ
# 1 patientA 2015-01-04 TRUE 2
# 2 patientA 2015-02-02 FALSE 3
# 3 patientB 2015-02-06 FALSE 1
# 4 patientB 2015-01-07 TRUE 3
# 5 patientB 2015-04-02 FALSE 4
您可以尝试 data.table
。在这里,我们将 'data.frame' 转换为 'data.table' (setDT(a)
),按 'var1' 分组,我们得到大于或等于 'var2' 元素的逻辑索引到相应的 'var2' 个元素,其中 'var3' 为 TRUE 并子集数据集 .SD
。
library(data.table)
setDT(a)[,.SD[var2 >= var2[var3]], var1]
# var1 var2 var3 sequ
#1: patientA 2015-01-04 TRUE 2
#2: patientA 2015-02-02 FALSE 3
#3: patientB 2015-02-06 FALSE 1
#4: patientB 2015-01-07 TRUE 3
#5: patientB 2015-04-02 FALSE 4
使用base R
的选项(假设数据按'var1'排序)
a[with(a, var2>=rep(var2[var3], table(var1))),]
# var1 var2 var3 sequ
#2 patientA 2015-01-04 TRUE 2
#3 patientA 2015-02-02 FALSE 3
#4 patientB 2015-02-06 FALSE 1
#6 patientB 2015-01-07 TRUE 3
#7 patientB 2015-04-02 FALSE 4
我在 var3
为 TRUE
时添加了一个包含日期的列,根据它进行过滤,然后将其放在末尾。
library(dplyr)
a %>% group_by(var1)%>%
mutate(truedate = first(var2[var3])) %>%
filter(var2 >= truedate) %>%
select(-truedate)
# Source: local data frame [5 x 4]
# Groups: var1
# var1 var2 var3 sequ
# 1 patientA 2015-01-04 TRUE 2
# 2 patientA 2015-02-02 FALSE 3
# 3 patientB 2015-02-06 FALSE 1
# 4 patientB 2015-01-07 TRUE 3
# 5 patientB 2015-04-02 FALSE 4
A base-R 解决方案:首先,不要理会你的rle
/sequ
事情。相反,对数据进行排序:
a <- a[order(a$var1,a$var2),]
查找所选行:
myrows <- tapply(
1:nrow(a),
a$var1,
function(ivec){
istar <- ivec[a$var3[ivec]]
ivec[ivec>=istar]
})
子集 a[unlist(myrows),]
。