R 的 Caret 包混淆了线性模型（lm）和随机森林

Question

我正在对语言数据进行回归，我想预测句子的数字情感值。我的数据是 120x531。我使用的是所谓的词袋方法，所以我的数据相对稀疏。

我想从一个简单的线性回归模型开始，所以我的代码基本上是这样的：

ctrl = trainControl(method="cv", number=10)
model.valence.lm = train(data[,5:531], data[,2], model = "lm", trControl = ctrl)
model.valence.lm

但是，插入符号似乎混淆了线性模型和随机森林，所以我得到以下输出（特别是第一行）：

Random Forest 

120 samples
527 predictors

No pre-processing
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 108, 108, 108, 108, 108, 108, ... 
Resampling results across tuning parameters:

  mtry  RMSE      Rsquared   RMSE SD    Rsquared SD
    2   2.594079  0.2786009  0.1236510  0.1612251  
   32   2.459950  0.1920956  0.1886138  0.1484976  
  526   2.639718  0.1028518  0.2459268  0.1067835  

RMSE was used to select the optimal model using  the smallest value.
The final value used for the model was mtry = 32.

让我更加困惑的是，我基本上是从以前的项目（它起作用的地方）复制并粘贴这段代码。有谁知道为什么会这样？我检查了我的数据对象，显然我使用的特征是整数（不是 numerics/floats）。这可能是一个可能的解释吗？

Answer 1

随机森林或 "rf" 是 method 参数的默认参数。您已经设置了 model 参数，插入符号已毫无怨言地接受但忽略了该参数。使用 method="lm".

R 的 Caret 包混淆了线性模型（lm）和随机森林

R's Caret package confuses linear model (lm) and random forest

r

r-caret