样本权重可以用于 Spark MLlib 随机森林训练吗?

Can sample weight be used in Spark MLlib Random Forest training?

我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二次 class class化。由于我使用的数据集是高度不平衡的,因此大多数 class 以 10% 的采样率进行了下采样。

是否可以在Spark随机森林训练中使用采样权重(本例中为10)?我在随机森林 trainClassifier() 的输入参数中没有看到权重。

在 Spark 1.5 中完全没有,在 Spark 1.6 中只有部分(Logistic/LinearRegression)

https://issues.apache.org/jira/browse/SPARK-7685

这是跟踪所有子任务的伞状 JIRA

https://issues.apache.org/jira/browse/SPARK-9610