R 中的鼠标 - 我如何理解此命令的作用?

Mice in R - how can I understand what this command does?

mice_mod <-
  mice(titanicData[, !names(titanicData) %in%
                     c('PassengerId','Name','Ticket','Cabin','Survived')], 
       method='rf')
mice_output <- complete(mice_mod)

我是 R 的新手,昨天我们有一个大学讲座。这个命令有什么作用?我已经阅读了在线文档并将命令分解为一系列输出,没有任何乐趣。

mice 函数近似于缺失值。在您的情况下,您使用的是 "rf" 语句,这意味着使用了随机森林插补算法。由于我无法重现您的数据集,因此我使用 airquality 这是 R 内置的数据集,具有 NA 值。这些可以近似。您正在使用 mice 创建一个预测模型。实际上它是一个 mids 对象,被小鼠用于估算数据集 (documentation)。如果你想使用这些插补,你可以调用 complete 来创建填充数据框。

library(mice)
df<-airquality
mice_mod <- mice(df, method='rf')
mice_output <- complete(mice_mod)

当您比较 dfmice_output 时,您会看到 OzoneSolar 中的 NA 值被替换了。

在您的示例中,您的讲师使用了所有不在被调用姓名列表中的姓名。所以他事先过滤了数据框。


如果您想了解有关该算法的更多信息:关于 documentation 它在

中有描述

Doove, L.L., van Buuren, S., Dusseldorp, E. (2014), Recursive partitioning for missing data imputation in the presence of interaction Effects. Computational Statistics \& Data Analysis, 72, 92-104.