线性模型迭代拟合并使用 varImp() 计算迭代中所有预测变量的变量重要性
Linear model fitting iteratively and calculate the Variable Importance with varImp() for all predictors over the iterations
我想迭代拟合线性模型 (= LM) 并在每次迭代后使用 caret::varImp()
函数计算个体的变量重要性 variables/predictors。我的数据 table 和天数如下所示(dt.train
的列数总是不同,days
变量也不同):
d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
"DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
"Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3), check.names = FALSE)
我也已经有一个函数可以每 d
天为我计算一次(这里 d<-50
):
varImportance <- function(data){
## Model fitting: ##
lmModel <- stats::lm(DE ~ .-1-date, data = data)
terms <- attr(lmModel$terms , "term.labels")
varimp <- caret::varImp(lmModel)
importance <- data[, .(date, imp = t(varimp))]
}
## Get variable importance: ##
dt.importance <- dt.train[, varImportance(.SD), by = seq_len(nrow(dt.train)) %/% d]
现在我想要一个循环来为我构建迭代,如下所示:
1. 运行:模型拟合从“2020-01-01”到“2020-02-20”的数据(这里恰好是 50 天)
2。 运行:模型拟合从“2020-01-02”到“2020-02-21”的数据
3。 运行:模型拟合从“2020-01-03”到“2020-02-22”的数据
... 等等
上次运行:模型拟合数据从“2020-11-11”到“2020-12-31”
然后应始终将变量重要性保存在新的 table 中以匹配模型拟合,即:
变量 1 的重要性。 运行: 应声明为“2020-01-01”,
2 的重要性可变。 运行: 应声明为“2020-01-02”,
...等等
变量重要性 最后 运行: 应声明为“2020-11-11”。
这怎么行?
您可以使用 zoo
包中的 rollapply
。
重要的参数是:
width
设置 window
by.column = FALSE
将所有列一起传递给模型
aligned = 'left'
这样滚动 window 从 上的第一个数据点开始
由于 rollapply
作用于矩阵,它将 dates
与 numeric
混合转换为 character
、,因此 date
字段必须单独处理。
library(data.table)
library(caret)
library(zoo)
d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
"DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
"Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3), check.names = FALSE)
varImportance <- function(data){
## Model fitting: ##
lmModel <- stats::lm(DE ~ .-1, data = data.table(data))
terms <- attr(lmModel$terms , "term.labels")
varimp <- caret::varImp(lmModel)
importance <- t(varimp)
}
# Removing date because rollapply needs a unique type
Importance <- as.data.frame(zoo::rollapply(dt.train[,!"date"],
FUN = varImportance,
width = d,
by.column=FALSE,
align='left')
)
# Adding back date
Importance <- cbind(dt.train[1:nrow(Importance),.(date)],Importance)
Importance
#> date Wind Solar Nuclear ResLoad
#> 1: 2020-01-01 2.523219 1.0253985 0.1676970 0.80379590
#> 2: 2020-01-02 2.535376 1.3231915 0.3292608 0.78803748
#> 3: 2020-01-03 2.636790 1.5249620 0.4857825 0.85169700
#> 4: 2020-01-04 3.158113 1.1318521 0.1869724 0.24190772
#> 5: 2020-01-05 3.326954 1.0991870 0.2341736 0.09327451
#> ---
#> 313: 2020-11-08 4.552528 0.8662639 0.8824743 0.22454327
#> 314: 2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800
此解决方案比您已经使用的函数花费更多时间,因为它的计算量是 chunck 版本的 50 倍。也无法使用 data.table::frollapply
,AFAIK 只能输出一维向量。
我想迭代拟合线性模型 (= LM) 并在每次迭代后使用 caret::varImp()
函数计算个体的变量重要性 variables/predictors。我的数据 table 和天数如下所示(dt.train
的列数总是不同,days
变量也不同):
d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
"DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
"Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3), check.names = FALSE)
我也已经有一个函数可以每 d
天为我计算一次(这里 d<-50
):
varImportance <- function(data){
## Model fitting: ##
lmModel <- stats::lm(DE ~ .-1-date, data = data)
terms <- attr(lmModel$terms , "term.labels")
varimp <- caret::varImp(lmModel)
importance <- data[, .(date, imp = t(varimp))]
}
## Get variable importance: ##
dt.importance <- dt.train[, varImportance(.SD), by = seq_len(nrow(dt.train)) %/% d]
现在我想要一个循环来为我构建迭代,如下所示:
1. 运行:模型拟合从“2020-01-01”到“2020-02-20”的数据(这里恰好是 50 天)
2。 运行:模型拟合从“2020-01-02”到“2020-02-21”的数据
3。 运行:模型拟合从“2020-01-03”到“2020-02-22”的数据
... 等等
上次运行:模型拟合数据从“2020-11-11”到“2020-12-31”
然后应始终将变量重要性保存在新的 table 中以匹配模型拟合,即:
变量 1 的重要性。 运行: 应声明为“2020-01-01”,
2 的重要性可变。 运行: 应声明为“2020-01-02”,
...等等
变量重要性 最后 运行: 应声明为“2020-11-11”。
这怎么行?
您可以使用 zoo
包中的 rollapply
。
重要的参数是:
width
设置 windowby.column = FALSE
将所有列一起传递给模型aligned = 'left'
这样滚动 window 从 上的第一个数据点开始
由于 rollapply
作用于矩阵,它将 dates
与 numeric
混合转换为 character
、date
字段必须单独处理。
library(data.table)
library(caret)
library(zoo)
d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
"DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
"Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3), check.names = FALSE)
varImportance <- function(data){
## Model fitting: ##
lmModel <- stats::lm(DE ~ .-1, data = data.table(data))
terms <- attr(lmModel$terms , "term.labels")
varimp <- caret::varImp(lmModel)
importance <- t(varimp)
}
# Removing date because rollapply needs a unique type
Importance <- as.data.frame(zoo::rollapply(dt.train[,!"date"],
FUN = varImportance,
width = d,
by.column=FALSE,
align='left')
)
# Adding back date
Importance <- cbind(dt.train[1:nrow(Importance),.(date)],Importance)
Importance
#> date Wind Solar Nuclear ResLoad
#> 1: 2020-01-01 2.523219 1.0253985 0.1676970 0.80379590
#> 2: 2020-01-02 2.535376 1.3231915 0.3292608 0.78803748
#> 3: 2020-01-03 2.636790 1.5249620 0.4857825 0.85169700
#> 4: 2020-01-04 3.158113 1.1318521 0.1869724 0.24190772
#> 5: 2020-01-05 3.326954 1.0991870 0.2341736 0.09327451
#> ---
#> 313: 2020-11-08 4.552528 0.8662639 0.8824743 0.22454327
#> 314: 2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800
此解决方案比您已经使用的函数花费更多时间,因为它的计算量是 chunck 版本的 50 倍。也无法使用 data.table::frollapply
,AFAIK 只能输出一维向量。