R - 删除 "one after another" 重复项
R - remove "one after another" duplicates
我试图找到一种方法来删除 R 语言中的连续重复项。我有一个 zoo
对象,例如:
2015-01-01 12:00:00 1
2015-01-01 13:00:00 1
2015-01-01 14:00:00 1
2015-01-01 15:30:00 4
2015-01-01 16:00:00 1
2015-01-01 17:00:00 6
我的预期结果是:
2015-01-01 12:00:00 1
2015-01-01 15:30:00 4
2015-01-01 16:00:00 1
2015-01-01 17:00:00 6
当我使用 duplicated-function 时,它也会删除重复项 (1),即使它们没有连续出现。
任何人都可以提示我如何编写这个或者是否已经有可用的功能?
您可以使用运行长度编码长度来挑选您想要的行。如果在 cumsum
中使用 raw,它将为您提供序列中的 last 值,但您可以通过从累积和中减去长度并加一来获得第一个值。
x <- data.frame(Date=Sys.Date()+0:5,Value=c(1,1,1,4,1,6))
lens <- rle(x$Value)$lengths
select <- cumsum(lens)-lens+1
x[select,]
Date Value
1 2015-05-13 1
4 2015-05-16 4
5 2015-05-17 1
6 2015-05-18 6
使用dplyr和lubridate,可以按如下方式进行:
library(dplyr)
library(lubridate)
DF <- data.frame(Date=c("2015-01-01 12:00:00",
"2015-01-01 13:00:00","2015-01-01 15:30:00"),
name1=c(1, 1, 4))
DF %>%
mutate(Date = ymd_hms(as.character(Date))) %>%
filter(Date - hours(1) > lag(Date) | is.na(lag(Date)))
dplyr
可让您参考上面的一行 (lag
),lubridate
可让您计算日期。
我试图找到一种方法来删除 R 语言中的连续重复项。我有一个 zoo
对象,例如:
2015-01-01 12:00:00 1
2015-01-01 13:00:00 1
2015-01-01 14:00:00 1
2015-01-01 15:30:00 4
2015-01-01 16:00:00 1
2015-01-01 17:00:00 6
我的预期结果是:
2015-01-01 12:00:00 1
2015-01-01 15:30:00 4
2015-01-01 16:00:00 1
2015-01-01 17:00:00 6
当我使用 duplicated-function 时,它也会删除重复项 (1),即使它们没有连续出现。
任何人都可以提示我如何编写这个或者是否已经有可用的功能?
您可以使用运行长度编码长度来挑选您想要的行。如果在 cumsum
中使用 raw,它将为您提供序列中的 last 值,但您可以通过从累积和中减去长度并加一来获得第一个值。
x <- data.frame(Date=Sys.Date()+0:5,Value=c(1,1,1,4,1,6))
lens <- rle(x$Value)$lengths
select <- cumsum(lens)-lens+1
x[select,]
Date Value
1 2015-05-13 1
4 2015-05-16 4
5 2015-05-17 1
6 2015-05-18 6
使用dplyr和lubridate,可以按如下方式进行:
library(dplyr)
library(lubridate)
DF <- data.frame(Date=c("2015-01-01 12:00:00",
"2015-01-01 13:00:00","2015-01-01 15:30:00"),
name1=c(1, 1, 4))
DF %>%
mutate(Date = ymd_hms(as.character(Date))) %>%
filter(Date - hours(1) > lag(Date) | is.na(lag(Date)))
dplyr
可让您参考上面的一行 (lag
),lubridate
可让您计算日期。