dplyr:使用 lead() 后,在 data.frame 分组中填充系列
dplyr: fill series in grouped data.frame after using lead()
请考虑以下事项:
在类似于以下示例的 data.frame
中,每个患者都会注明服药的日期。目标是计算 "time to next treatment",它被定义为从一次治疗开始到下一次治疗开始之间的天数。 data.frame
中的所有其他列(此处未显示)包含需要保留的不同信息。
我的做法如下:
library("dplyr")
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> intersect, setdiff, setequal, union
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
db
#> id date
#> 1 a 2018-01-01
#> 2 a 2018-01-01
#> 3 a 2018-01-01
#> 4 a 2018-01-20
#> 5 a 2018-01-20
#> 6 b 2018-01-01
#> 7 b 2018-01-01
#> 8 b 2018-01-01
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date))
#> Warning: package 'bindrcpp' was built under R version 3.4.4
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 0.
#> 2 a 2018-01-01 0.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 0.
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 0.
#> 7 b 2018-01-01 0.
#> 8 b 2018-01-01 NA
由 reprex package (v0.2.0) 创建于 2018-08-13。
但是,我需要的是 data.frame
(或 tibble
),如下所示:
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 19.
#> 2 a 2018-01-01 19.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 NA
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 NA
#> 7 b 2018-01-01 NA
#> 8 b 2018-01-01 NA
问题:我怎样才能实现每组的所有值都相同,尽管唯一的计算值是一组的最后一次观察和第一次观察之间的差异后续组?
非常感谢。
一种选择是先删除id和date中的所有重复项,计算时间差然后加入db
在 id 和 date 列上:
db %>%
select(id, date) %>%
distinct() %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date)) %>%
inner_join(db)
#Joining, by = c("id", "date")
# A tibble: 8 x 3
# Groups: id [?]
# id date time.to.next
# <fct> <date> <dbl>
#1 a 2018-01-01 19
#2 a 2018-01-01 19
#3 a 2018-01-01 19
#4 a 2018-01-20 NA
#5 a 2018-01-20 NA
#6 b 2018-01-01 NA
#7 b 2018-01-01 NA
#8 b 2018-01-01 NA
另一种选择是计算每个 date
和该 ID 的 max(date)
之间的距离,然后用 NA
替换零
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
library(dplyr)
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(max(date) - date),
time.to.next = ifelse(time.to.next > 0, time.to.next, NA)) %>%
ungroup()
# # A tibble: 8 x 3
# id date time.to.next
# <fct> <date> <dbl>
# 1 a 2018-01-01 19
# 2 a 2018-01-01 19
# 3 a 2018-01-01 19
# 4 a 2018-01-20 NA
# 5 a 2018-01-20 NA
# 6 b 2018-01-01 NA
# 7 b 2018-01-01 NA
# 8 b 2018-01-01 NA
请考虑以下事项:
在类似于以下示例的 data.frame
中,每个患者都会注明服药的日期。目标是计算 "time to next treatment",它被定义为从一次治疗开始到下一次治疗开始之间的天数。 data.frame
中的所有其他列(此处未显示)包含需要保留的不同信息。
我的做法如下:
library("dplyr")
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> intersect, setdiff, setequal, union
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
db
#> id date
#> 1 a 2018-01-01
#> 2 a 2018-01-01
#> 3 a 2018-01-01
#> 4 a 2018-01-20
#> 5 a 2018-01-20
#> 6 b 2018-01-01
#> 7 b 2018-01-01
#> 8 b 2018-01-01
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date))
#> Warning: package 'bindrcpp' was built under R version 3.4.4
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 0.
#> 2 a 2018-01-01 0.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 0.
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 0.
#> 7 b 2018-01-01 0.
#> 8 b 2018-01-01 NA
由 reprex package (v0.2.0) 创建于 2018-08-13。
但是,我需要的是 data.frame
(或 tibble
),如下所示:
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 19.
#> 2 a 2018-01-01 19.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 NA
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 NA
#> 7 b 2018-01-01 NA
#> 8 b 2018-01-01 NA
问题:我怎样才能实现每组的所有值都相同,尽管唯一的计算值是一组的最后一次观察和第一次观察之间的差异后续组?
非常感谢。
一种选择是先删除id和date中的所有重复项,计算时间差然后加入db
在 id 和 date 列上:
db %>%
select(id, date) %>%
distinct() %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date)) %>%
inner_join(db)
#Joining, by = c("id", "date")
# A tibble: 8 x 3
# Groups: id [?]
# id date time.to.next
# <fct> <date> <dbl>
#1 a 2018-01-01 19
#2 a 2018-01-01 19
#3 a 2018-01-01 19
#4 a 2018-01-20 NA
#5 a 2018-01-20 NA
#6 b 2018-01-01 NA
#7 b 2018-01-01 NA
#8 b 2018-01-01 NA
另一种选择是计算每个 date
和该 ID 的 max(date)
之间的距离,然后用 NA
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
library(dplyr)
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(max(date) - date),
time.to.next = ifelse(time.to.next > 0, time.to.next, NA)) %>%
ungroup()
# # A tibble: 8 x 3
# id date time.to.next
# <fct> <date> <dbl>
# 1 a 2018-01-01 19
# 2 a 2018-01-01 19
# 3 a 2018-01-01 19
# 4 a 2018-01-20 NA
# 5 a 2018-01-20 NA
# 6 b 2018-01-01 NA
# 7 b 2018-01-01 NA
# 8 b 2018-01-01 NA