select 最早日期和最晚日期取决于 R 中的 ID 列

select earliest date and latest date dependant on ID column in R

数据集

structure(list(x = c(1, 5, 2, 2, 4, 2, 5, 5, 4, 2, 1, 4, 3, 5, 
4, 1, 2, 3, 1, 3), y = structure(c(13520, 17333, 17422, 17096, 
17096, 18140, 11899, 11759, 17422, 15302, 12547, 17096, 17152, 
17096, 12547, 11423, 15302, 17422, 13867, 12547), class = "Date")), row.names = c(23L, 
87L, 55L, 38L, 40L, 115L, 27L, 135L, 53L, 122L, 11L, 48L, 61L, 
46L, 12L, 83L, 127L, 49L, 104L, 1L), class = "data.frame")

我想查找 1-4 的最晚日期,但对于 5,我想要最早的日期。

我可以按数字和 运行 两个单独的查询对它们进行子集化:

less_than_5 <- subset(df, x <5)
g <- setDT(less_than_5)[,.SD[which.max(y)]. keyby = x,]

然后 x == 5 和 运行 which.min(y)

也一样

我想知道我是否可以在一行中完成整个查询,而不是将 1-4 和 5 作为单独的查询子集。

更新:

如果每一行都附加了一个参与者 ID,其中一些是重复的,有没有办法使用 keyby 功能来做到这一点。对于每个参与者,我想知道提及 1:4 之一的最新日期。但是,如果是 5 那么我想知道最早的日期。

您可以使用if/else

library(data.table)
setDT(df)[, if(first(x) != 5) max(y) else min(y), x]

#   x         V1
#1: 1 2007-12-20
#2: 5 2002-03-13
#3: 2 2019-09-01
#4: 4 2017-09-13
#5: 3 2017-09-13