将数据框列转换为 spark scala 中的逗号分隔值

Convert dataframe column to a comma separated value in spark scala

我有一个数据框如下

我希望输出像

基本上它应该根据 TPID 分组并以逗号分隔值给出个人角色,如第二个图所示。

您可以使用这些功能:

import org.apache.spark.sql.functions._

//read data in inputDF
inputDF.groupBy("Tpid")
      .agg(concat_ws(",", collect_list("PersonalRole")).alias("PersonalRole"))
      .select(col("Tpid"), col("PersonalRole"))