如何简化我的 dplyr/apply 脚本?

How can I simplify my dplyr/apply script?

我想使用包含 POSIXct 数据点的 df 完成几个步骤。

基本上,数据框中有三列具有不同的日期。需要实现以下目标:

  1. 将所有日期更改为三列中每一行的相同日期(保留时间不变

  2. 计算 column/row 中的实际时间与标称的 date/time 组合之间的时间差,该组合产生三个具有秒数的新列

我已经成功做到了,但是我的回答(我已经寻求过帮助)似乎太长太麻烦,这里是:

我做的第一件事是创建一个用于计算的名义日期:

date.zero<- as.POSIXct("2018-01-01 00:00:00 EST")

然后我将特定列中数据框每一行中的所有日期更改为相同的日期

df$tim.col.1 <- as.POSIXct(sub("\S+", "2018-01-01", df$tim.col.1))
df$tim.col.2 <- as.POSIXct(sub("\S+", "2018-01-01", df$tim.col.2))
df$tim.col.2 <- as.POSIXct(sub("\S+", "2018-01-01", df$tim.col.2))

最后我使用 lapply 从 date.zero 中减去日期以产生以秒为单位的时差(即从 00:00:00 本质上是秒)

df["tim.col.1"] <- lapply(df["tim.col.1"],function(x) x-date.zero)
df["tim.col.2"] <- lapply(df["tim.col.2"],function(x) x-date.zero)
df["tim.col.3"] <- lapply(df["tim.col.3"],function(x) x-date.zero)

现在。我猜所有这一切都可以很容易地以更好的方式使用 lapply 或使用 dplyr 来完成,所以我不需要输入所有这些代码......也许使用类似的东西但将所有东西集成在一起?

newdf  <- df %>% rowwise () %>% mutate(xxx=tim.col.1-date.zero,
                                  xxx2=tim.col.2-date.zero,
                                  xxx3=tim.col.3-date.zero)

谁能告诉我如何最简洁有效地实现这一目标。

这是针对您描述的问题的 dplyr 解决方案:

library(magrittr)
library(dplyr)
library(stringr)
library(lubridate)

date.zero<- ymd_hms("2018-01-01 00:00:00", tz = "America/New_York")

new_df <- df %>% # 1) change all dates to be the same for each row of the three columns
    mutate(tim.col.1 = ymd_hms(str_replace(tim.col.1, "\S+", "2018-01-01"), tz = "America/New_York"),
          tim.col.2 = ymd_hms(str_replace(tim.col.2, "\S+", "2018-01-01"), tz = "America/New_York"),
          tim.col.3 = ymd_hms(str_replace(tim.col.3, "\S+", "2018-01-01"), tz = "America/New_York")) %>%
    # 2) calculate difference in time between actual time in the column/row against a 
    # nominal date/time combination which yields three new columns with seconds
    mutate(tim.col.1 = tim.col.1 - date.zero,
           tim.col.2 = tim.col.2 - date.zero,
           tim.col.3 = tim.col.3 - date.zero)

编辑:这里是基于 Moody_Mudskipper 的建议的 mutate_if 版本:

new_df <- df %>% # 1) change all dates to be the same for each row of the three columns
    mutate_if(is.POSIXct, funs(ymd_hms(str_replace(., "\S+", "2018-01-01"), tz = "America/New_York"))) %>%
    # 2) calculate difference in time between actual time in the column/row against a 
    # nominal date/time combination which yields three new columns with seconds
    mutate_if(is.POSIXct, funs(. - date.zero))