如何在 Spark 的随机森林中训练数据时设置截止值

How to set cutoff while training the data in Random Forest in Spark

我正在使用 Spark Mlib 训练数据以使用随机森林算法进行分类。 MLib 提供了一个 RandomForest Class,它有 trainClassifier 方法来完成所需的。

我可以在训练数据集时设置一个阈值吗,类似于R的中提供的cutoff选项随机森林包。

http://cran.r-project.org/web/packages/randomForest/randomForest.pdf

我发现 MLib 的 RandomForest Class 提供的选项仅用于传递树的数量、杂质、类 的数量等,但没有什么比阈值切断选项可用。有什么办法可以吗

短版本不是,如果我们看一下 RandomForestClassifier.scala,您会发现它总是简单地选择最大值。您可以重写 predict 函数,但它不是很干净。我已经添加了一个 jira 来跟踪添加这个。