如何获取特定列值pyspark的所有列值?

How to get all the columns values for a specific Column value pyspark?

我有以下数据集。

state code
OH A
OH B
NY C
NY D

我想获取以下内容,然后将详细信息存入csv文件。我该怎么做?我尝试了 groupBy,但它似乎不起作用。

state code
OH A,B
NY C,D

您可以使用 collect_setcollect_list

与小组一起完成
import pyspark.sql.functions as F
df.groupBy("state").agg(F.collect_set("code"))