并行化随机森林
Parallelizing random forests
通过搜索和询问,我找到了很多可以用来利用我服务器所有核心的包,还有很多可以做随机森林的包。
我在这方面很陌生,我在并行化随机森林训练的所有方法之间迷失了方向。您能否就使用 and/or 的原因给出一些建议,避免它们中的每一个,或者它们的某些特定组合(有或没有 caret
?)已经证明了?
并行化包:
doParallel
、
doSNOW
、
doSMP
(停产?),
doMC
(那 mclapply
呢?)
随机森林包:
[caret
+ 以下部分]
rf
、
parRF
、
randomForest
、
ranger
,
Rborist
,
parallelRandomForest
(使我的 R Studio 会话崩溃...)
谢谢
SO 上有一些答案,例如 parallel execution of random forest in R and Suggestions for speeding up Random Forests,我会看一下。
这些帖子很有用,但有点老了。 ranger
包是随机森林的一个特别快速的实现,所以如果你是新手,它可能是加速模型训练的最简单方法。 Their paper 讨论了一些可用包的权衡 - 根据您的数据大小和功能数量,哪个包给您最好的性能会有所不同。
通过搜索和询问,我找到了很多可以用来利用我服务器所有核心的包,还有很多可以做随机森林的包。
我在这方面很陌生,我在并行化随机森林训练的所有方法之间迷失了方向。您能否就使用 and/or 的原因给出一些建议,避免它们中的每一个,或者它们的某些特定组合(有或没有 caret
?)已经证明了?
并行化包:
doParallel
、
doSNOW
、
doSMP
(停产?),
doMC
(那 mclapply
呢?)
随机森林包:
[caret
+ 以下部分]
rf
、
parRF
、
randomForest
、
ranger
,
Rborist
,
parallelRandomForest
(使我的 R Studio 会话崩溃...)
谢谢
SO 上有一些答案,例如 parallel execution of random forest in R and Suggestions for speeding up Random Forests,我会看一下。
这些帖子很有用,但有点老了。 ranger
包是随机森林的一个特别快速的实现,所以如果你是新手,它可能是加速模型训练的最简单方法。 Their paper 讨论了一些可用包的权衡 - 根据您的数据大小和功能数量,哪个包给您最好的性能会有所不同。