"Unnesting" R 中的数据框
"Unnesting" a dataframe in R
我有以下 data.frame
:
df <- data.frame(id=c(1,2,3),
first.date=as.Date(c("2014-01-01", "2014-03-01", "2014-06-01")),
second.date=as.Date(c("2015-01-01", "2015-03-01", "2015-06-1")),
third.date=as.Date(c("2016-01-01", "2017-03-01", "2018-06-1")),
fourth.date=as.Date(c("2017-01-01", "2018-03-01", "2019-06-1")))
> df
id first.date second.date third.date fourth.date
1 1 2014-01-01 2015-01-01 2016-01-01 2017-01-01
2 2 2014-03-01 2015-03-01 2017-03-01 2018-03-01
3 3 2014-06-01 2015-06-01 2018-06-01 2019-06-01
每行代表三个时间跨度;即 first.date
和 second.date
、second.date
和 third.date
以及 third.date
和 fourth.date
之间的时间跨度。
我想,没有更好的词了,取消嵌套数据框来获得这个:
id StartDate EndDate
1 1 2014-01-01 2015-01-01
2 1 2015-01-01 2016-01-01
3 1 2016-01-01 2017-01-01
4 2 2014-03-01 2015-03-01
5 2 2015-03-01 2017-03-01
6 2 2017-03-01 2018-03-01
7 3 2014-06-01 2015-06-01
8 3 2015-06-01 2018-06-01
9 3 2018-06-01 2019-06-01
我一直在研究 tidyr
包中的 unnest
函数,但我得出的结论是我认为这不是我真正想要的。
有什么建议吗?
我们可以使用data.table
。我们将 'data.frame' 转换为 'data.table' (setDT(df)
),然后将 melt
数据集转换为 long
格式,使用 shift
和 type='lead'
按 'id' 分组,然后删除 NA
元素。
library(data.table)
na.omit(melt(setDT(df), id.var='id')[, shift(value,0:1, type='lead') , id])
# id V1 V2
#1: 1 2014-01-01 2015-01-01
#2: 1 2015-01-01 2016-01-01
#3: 1 2016-01-01 2017-01-01
#4: 2 2014-03-01 2015-03-01
#5: 2 2015-03-01 2017-03-01
#6: 2 2017-03-01 2018-03-01
#7: 3 2014-06-01 2015-06-01
#8: 3 2015-06-01 2018-06-01
#9: 3 2018-06-01 2019-06-01
可以使用 setnames
或更早的 shift
步骤更改列名。
您可以尝试tidyr/dplyr如下:
library(tidyr)
library(dplyr)
df %>% gather(DateType, StartDate, -id) %>% select(-DateType) %>% arrange(id) %>% group_by(id) %>% mutate(EndDate = lead(StartDate))
您可以通过添加以下内容来消除每个 ID 组中的最后一行:
%>% slice(-4)
到上面的管道。
我有以下 data.frame
:
df <- data.frame(id=c(1,2,3),
first.date=as.Date(c("2014-01-01", "2014-03-01", "2014-06-01")),
second.date=as.Date(c("2015-01-01", "2015-03-01", "2015-06-1")),
third.date=as.Date(c("2016-01-01", "2017-03-01", "2018-06-1")),
fourth.date=as.Date(c("2017-01-01", "2018-03-01", "2019-06-1")))
> df
id first.date second.date third.date fourth.date
1 1 2014-01-01 2015-01-01 2016-01-01 2017-01-01
2 2 2014-03-01 2015-03-01 2017-03-01 2018-03-01
3 3 2014-06-01 2015-06-01 2018-06-01 2019-06-01
每行代表三个时间跨度;即 first.date
和 second.date
、second.date
和 third.date
以及 third.date
和 fourth.date
之间的时间跨度。
我想,没有更好的词了,取消嵌套数据框来获得这个:
id StartDate EndDate
1 1 2014-01-01 2015-01-01
2 1 2015-01-01 2016-01-01
3 1 2016-01-01 2017-01-01
4 2 2014-03-01 2015-03-01
5 2 2015-03-01 2017-03-01
6 2 2017-03-01 2018-03-01
7 3 2014-06-01 2015-06-01
8 3 2015-06-01 2018-06-01
9 3 2018-06-01 2019-06-01
我一直在研究 tidyr
包中的 unnest
函数,但我得出的结论是我认为这不是我真正想要的。
有什么建议吗?
我们可以使用data.table
。我们将 'data.frame' 转换为 'data.table' (setDT(df)
),然后将 melt
数据集转换为 long
格式,使用 shift
和 type='lead'
按 'id' 分组,然后删除 NA
元素。
library(data.table)
na.omit(melt(setDT(df), id.var='id')[, shift(value,0:1, type='lead') , id])
# id V1 V2
#1: 1 2014-01-01 2015-01-01
#2: 1 2015-01-01 2016-01-01
#3: 1 2016-01-01 2017-01-01
#4: 2 2014-03-01 2015-03-01
#5: 2 2015-03-01 2017-03-01
#6: 2 2017-03-01 2018-03-01
#7: 3 2014-06-01 2015-06-01
#8: 3 2015-06-01 2018-06-01
#9: 3 2018-06-01 2019-06-01
可以使用 setnames
或更早的 shift
步骤更改列名。
您可以尝试tidyr/dplyr如下:
library(tidyr)
library(dplyr)
df %>% gather(DateType, StartDate, -id) %>% select(-DateType) %>% arrange(id) %>% group_by(id) %>% mutate(EndDate = lead(StartDate))
您可以通过添加以下内容来消除每个 ID 组中的最后一行:
%>% slice(-4)
到上面的管道。