样本权重可以用于 Spark MLlib 随机森林训练吗?
Can sample weight be used in Spark MLlib Random Forest training?
我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二次 class class化。由于我使用的数据集是高度不平衡的,因此大多数 class 以 10% 的采样率进行了下采样。
是否可以在Spark随机森林训练中使用采样权重(本例中为10)?我在随机森林 trainClassifier()
的输入参数中没有看到权重。
在 Spark 1.5 中完全没有,在 Spark 1.6 中只有部分(Logistic/LinearRegression)
https://issues.apache.org/jira/browse/SPARK-7685
这是跟踪所有子任务的伞状 JIRA
我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二次 class class化。由于我使用的数据集是高度不平衡的,因此大多数 class 以 10% 的采样率进行了下采样。
是否可以在Spark随机森林训练中使用采样权重(本例中为10)?我在随机森林 trainClassifier()
的输入参数中没有看到权重。
在 Spark 1.5 中完全没有,在 Spark 1.6 中只有部分(Logistic/LinearRegression)
https://issues.apache.org/jira/browse/SPARK-7685
这是跟踪所有子任务的伞状 JIRA