在 Spark 中堆叠 ML 算法

Stacking ML Algorithms in Spark

是否有 spark api 在 spark 中构建堆叠合奏,还是应该从头开始构建它们?我没有在网上找到关于这个主题的任何资源

正如 AKSW 的评论中所说,在当前的 Apache Spark MLlib 中,只有两个特定的集成模型实现,它们是 Random Forests for Bagging and Gradient Boosted Trees 用于提升。

对于堆叠部分,我认为您在 MLlib 上找不到任何东西,您必须自己完成:

  1. 创建一个函数来生成一个管道,该管道将通过添加带有矢量组装器和最终堆叠算法的基础学习器来进行堆叠
  2. 创建一个将您的基础学习器和堆叠算法作为参数的元估计器

第二个很方便,因为它可以与所有 MLlib 工具一起使用,如 Tuning Tools

对于第二个解决方案,我制作了一个包含提升、装袋和堆叠元估计器的库:spark-ensemble

您可以从中获取一些实现思路!