CrossValidation/TrainValidationSplit 在 PySpark 中有多个管道

Question

我正在尝试评估 PySpark 中的多个管道。我可以在一个单独的 CV/TVS 中为每个模型完成它，但我想只在一个模型中完成它，这样它就可以直接给我最好的模型，但我不知道如何让它工作。

lr_assembler 和 assembler 是 VectorAsembler 的两个实例（不同的特征选择）。

pca、lr、rf 和 gbt 是 PCA、LinearRegression、RandomForestRegressor 和 GBTRegressor.

管道定义：

pipeline = Pipeline()

lr_stages = [lr_assembler, pca, lr]
rf_stages = [assembler, rf]
gbt_stages = [assembler, gbt]

lr_pipeline = Pipeline(stages=lr_stages)
rf_pipeline = Pipeline(stages=rf_stages)
gbt_pipeline = Pipeline(stages=gbt_stages)

paramMaps 定义：

lr_grid = ParamGridBuilder().baseOn({pipeline.stages:lr_stages})\
                            .addGrid(pca.k, [2, 5, 7])\
                            .build()

rf_grid = ParamGridBuilder().baseOn({pipeline.stages:rf_stages})\
                            .addGrid(rf.maxDepth, [5, 10])\
                            .addGrid(rf.featureSubsetStrategy, ['3', '6'])\
                            .build()

gbt_grid = ParamGridBuilder().baseOn({pipeline.stages:gbt_stages})\
                             .addGrid(gbt.maxDepth, [5, 10])\
                             .addGrid(gbt.maxIter, [50, 100])\
                             .build()

grid = lr_grid + rf_grid + gbt_grid

TrainValidationSplit 定义：

tvs = TrainValidationSplit(estimator=pipeline, estimatorParamMaps=grid, evaluator=rmse_evaluator, trainRatio=0.8, parallelism=3, seed=7)

模型训练：

model = tvs.fit(train_val)

在最后一行运行之后，这是我得到的错误（不确定我是否应该 post 整件事）：

KeyError: Param(parent='Pipeline_40f78ef0cee04a4ebc61', name='stages', doc='a list of pipeline stages')

感谢您的宝贵时间。

Answer 1

我有同样的问题，我通过初始化管道阶段解决了这个问题。

pipeline = Pipeline(stages=[])  # Must initialize with empty list!

这里有一个很好的这种方法的例子： https://github.com/dsharpc/dsharpc.github.io/blob/master/SparkMLFlights/README.md

CrossValidation/TrainValidationSplit 在 PySpark 中有多个管道

CrossValidation/TrainValidationSplit with multiple pipelines in PySpark

pipeline

cross-validation

apache-spark

pyspark