并行化随机森林

Parallelizing random forests

通过搜索和询问,我找到了很多可以用来利用我服务器所有核心的包,还有很多可以做随机森林的包。

我在这方面很陌生,我在并行化随机森林训练的所有方法之间迷失了方向。您能否就使用 and/or 的原因给出一些建议,避免它们中的每一个,或者它们的某些特定组合(有或没有 caret ?)已经证明了?

并行化包:

doParallel

doSNOW

doSMP(停产?),

doMC

(那 mclapply 呢?)


随机森林包:

[caret + 以下部分]

rf

parRF

randomForest

ranger,

Rborist,

parallelRandomForest(使我的 R Studio 会话崩溃...)

谢谢

SO 上有一些答案,例如 parallel execution of random forest in R and Suggestions for speeding up Random Forests,我会看一下。

这些帖子很有用,但有点老了。 ranger 包是随机森林的一个特别快速的实现,所以如果你是新手,它可能是加速模型训练的最简单方法。 Their paper 讨论了一些可用包的权衡 - 根据您的数据大小和功能数量,哪个包给您最好的性能会有所不同。