如何将其他数据帧传递给自定义 Spark MLLib 转换器

How to pass additional dataframes to custom Spark MLLib Transformers

我正在编写一个自定义 Spark 转换器,我需要在其中访问一个额外的数据帧并与主数据集进行连接。要加入的数据框的路径将出现在我的主 class 中。如何将数据框本身或数据框的路径传递给自定义转换器?

正如@SomeshwarKale 所建议的,它可以在 transform 方法中访问。需要的sparkSession可以从dataset.sparkSession

中获取