如何在 Spark 的随机森林中训练数据时设置截止值
How to set cutoff while training the data in Random Forest in Spark
我正在使用 Spark Mlib 训练数据以使用随机森林算法进行分类。 MLib 提供了一个 RandomForest Class,它有 trainClassifier 方法来完成所需的。
我可以在训练数据集时设置一个阈值吗,类似于R的中提供的cutoff选项随机森林包。
http://cran.r-project.org/web/packages/randomForest/randomForest.pdf
我发现 MLib 的 RandomForest Class 提供的选项仅用于传递树的数量、杂质、类 的数量等,但没有什么比阈值或切断选项可用。有什么办法可以吗
短版本不是,如果我们看一下 RandomForestClassifier.scala
,您会发现它总是简单地选择最大值。您可以重写 predict 函数,但它不是很干净。我已经添加了一个 jira 来跟踪添加这个。
我正在使用 Spark Mlib 训练数据以使用随机森林算法进行分类。 MLib 提供了一个 RandomForest Class,它有 trainClassifier 方法来完成所需的。
我可以在训练数据集时设置一个阈值吗,类似于R的中提供的cutoff选项随机森林包。
http://cran.r-project.org/web/packages/randomForest/randomForest.pdf
我发现 MLib 的 RandomForest Class 提供的选项仅用于传递树的数量、杂质、类 的数量等,但没有什么比阈值或切断选项可用。有什么办法可以吗
短版本不是,如果我们看一下 RandomForestClassifier.scala
,您会发现它总是简单地选择最大值。您可以重写 predict 函数,但它不是很干净。我已经添加了一个 jira 来跟踪添加这个。