当从 as.Date 更改为 as.numeric 时,日期变量的预测能力会降低

Predictive power of date variable reduces when changed from as.Date to as.numeric

我正在构建一个包含多个日期和数字变量的回归模型。我快速检查了一个日期变量

    lm.fit = lm(label ~ Firstday, data = rawdata)
    summary(lm.fit)$r.squared   

衡量其对模型的预测影响。这占方差的 41%。我现在尝试将日期更改为数字,以便更好地使用变量。我使用了命令

    as.numeric(as.POSIXct(rawdata$Firstday, format = "%Y-%m-%d"))

这样做可以将方差减少到 10% - 这不是我想要的。我做错了什么,我该怎么做?

我看过 https://stats.stackexchange.com/questions/65900/does-it-make-sense-to-use-a-date-variable-in-a-regression,但我不清楚答案。

编辑 1:

我所做的可重现代码示例如下所示:

 label = c(0,1,0,0,0,1,1)
 Firstday = c("2016-04-06", "2016-04-05", "2016-04-04",
     "2016-04-03", "2016-04-02", "2016-04-02","2016-04-01")
 lm.fit <- lm(label ~ Firstday)
 summary(lm.fit)$r.squared

[1] 0.7083333

更改为数字时:

 Firstday = as.numeric(as.POSIXct(Firstday, format="%Y-%m-%d"))

我现在得到

 lm.fit <- lm(label ~ Firstday)
 summary(lm.fit)$r.squared

 [1] 0.1035539

这是因为你原来的日期列表实际上只是一个项目列表,没有任何日期顺序信息。

看看下面我如何将它们更改为任意字母以获得相同的结果。第三个代码片段 returns 与第一个代码片段相同的 r2。

label <- c(0,1,0,0,0,1,1)
Firstday1<- c("2016-04-06","2016-04-05","2016-04-04","2016-04-03","2016-04-02","2016-04-02","2016-04-01")
str(Firstday1)
lm.fit1 <- lm(label~Firstday1)
summary(lm.fit1)$r.squared
[1] 0.7083333


Firstday2 <- as.numeric(as.POSIXct(Firstday1,format="%Y-%m-%d"))
str(Firstday2)
lm.fit2 <- lm(label ~ Firstday2)
summary(lm.fit2)$r.squared
[1] 0.1035539


Firstday3<- c("a","b","c","d","e","e","f")
str(Firstday3)
lm.fit3 <- lm(label~Firstday3)
summary(lm.fit3)$r.squared
[1] 0.7083333