将表示各种格式日期的字符串列转换为日期列

Convert column of strings representing variously formatted dates into a column of dates

我正在寻找一种 高效 方法将数据 table 中的一列字符串转换为一列日期,条件是字符串可能是采用三种日期格式之一 -- 数字、%Y-%m-%d、%m/%d/%Y。

以下说明了假设函数 datefun 的行为方式:

library(data.table)
dt <- data.table( my_dates = c('42292.7894','2014-06-22','11/25/2011','33661', NA))

datefun(dt$my_dates)
[1] "2015-10-15" "2014-06-22" "2011-11-25" "1992-02-27" NA 

这与将 as.Date 应用到每个知道字符串格式的字符串是一样的。

 l <- dt$my_dates
 c( as.Date(as.numeric(l[1]), origin = "1899-12-30"), 
    as.Date(l[2],'%Y-%m-%d'), 
    as.Date(l[3],'%m/%d/%Y'), 
    as.Date(as.numeric(l[4]), origin = "1899-12-30"),
    as.Date(l[5]))
[1] "2015-10-15" "2014-06-22" "2011-11-25" "1992-02-27" NA   

我正在尝试直接从 excel 读取数据,但格式不一致。

lubridate 对此很方便。我认为关于这个主题的其他问题没有明确处理自起源以来的小数天数,所以这里是:

library(lubridate)
d <- parse_date_time(l, c('%Y-%m-%d', '%m/%d/%Y'))
d[is.na(d)] <- (ymd_hms("1899-12-30 00:00:00") + as.numeric(l) * 3600 * 24)[is.na(d]
d

## [1] "2015-10-15 18:56:44 UTC" "2014-06-22 00:00:00 UTC" "2011-11-25 00:00:00 UTC"
## [4] "1992-02-27 00:00:00 UTC" NA 

这假设 l 中任何可强制转换为数字的元素都处于自原始格式以来的小数天数(具有一致的来源)。