并行化随机森林

Parallelizing random forests

通过搜索和询问，我找到了很多可以用来利用我服务器所有核心的包，还有很多可以做随机森林的包。

我在这方面很陌生，我在并行化随机森林训练的所有方法之间迷失了方向。您能否就使用 and/or 的原因给出一些建议，避免它们中的每一个，或者它们的某些特定组合（有或没有 caret ？）已经证明了？

并行化包：

doParallel、

doSNOW、

doSMP（停产？），

doMC

（那 mclapply 呢？）

随机森林包：

[caret + 以下部分]

rf、

parRF、

randomForest、

ranger,

Rborist,

parallelRandomForest（使我的 R Studio 会话崩溃...）

谢谢

SO 上有一些答案，例如 parallel execution of random forest in R and Suggestions for speeding up Random Forests，我会看一下。

这些帖子很有用，但有点老了。 ranger 包是随机森林的一个特别快速的实现，所以如果你是新手，它可能是加速模型训练的最简单方法。 Their paper 讨论了一些可用包的权衡 - 根据您的数据大小和功能数量，哪个包给您最好的性能会有所不同。