如何将列转换为pyspark中的行?
how to convert columns to rows in pyspark?
我有一个包含多列的数据框,我需要将它放在一个列中,我怎样才能在不失去 pyspark 并行能力的情况下高效地做到这一点?有人可以帮助我吗?
USER|ID_1 |ID_2 |ID_3 |ID_4 |Name1|Name2|Name3|Name4
1234|1234500|null |null |null |text |null |null |null
1234|1234500|null |null |null |text |null |null |null
1234|null |null |1111500|null |null |null |text |null
1234|null |null |1111500|null |null |null |text |null
1234|null |1111222|null |null |null |text |null |null
1234|null |1111222|null |null |null |text |null |null
1234|null |null |null |1111333|null |null |null |text
1234|null |null |null |1111333|null |null |null |text
预期输出:
USER|ID |Name
1234|1234500|text
1234|1234500|text
1234|1111500|text
1234|1111500|text |
1234|1111222|text |
1234|1111222|text |
1234|1111333|text |
1234|1111333|text |
试试 coalesce(col1,col2,col3..coln)
Example:
df.withColumn("id",coalesce(col("ID_1"),col("ID_2"),col("ID_3"),col("ID_4"))).\
withColumn("Name",coalesce(col("Name1"),col("Name2"),col("Name3"),col("Name4"))).\
show()
我有一个包含多列的数据框,我需要将它放在一个列中,我怎样才能在不失去 pyspark 并行能力的情况下高效地做到这一点?有人可以帮助我吗?
USER|ID_1 |ID_2 |ID_3 |ID_4 |Name1|Name2|Name3|Name4
1234|1234500|null |null |null |text |null |null |null
1234|1234500|null |null |null |text |null |null |null
1234|null |null |1111500|null |null |null |text |null
1234|null |null |1111500|null |null |null |text |null
1234|null |1111222|null |null |null |text |null |null
1234|null |1111222|null |null |null |text |null |null
1234|null |null |null |1111333|null |null |null |text
1234|null |null |null |1111333|null |null |null |text
预期输出:
USER|ID |Name
1234|1234500|text
1234|1234500|text
1234|1111500|text
1234|1111500|text |
1234|1111222|text |
1234|1111222|text |
1234|1111333|text |
1234|1111333|text |
试试 coalesce(col1,col2,col3..coln)
Example:
df.withColumn("id",coalesce(col("ID_1"),col("ID_2"),col("ID_3"),col("ID_4"))).\
withColumn("Name",coalesce(col("Name1"),col("Name2"),col("Name3"),col("Name4"))).\
show()