如何获取特定列值pyspark的所有列值?
How to get all the columns values for a specific Column value pyspark?
我有以下数据集。
state
code
OH
A
OH
B
NY
C
NY
D
我想获取以下内容,然后将详细信息存入csv文件。我该怎么做?我尝试了 groupBy,但它似乎不起作用。
state
code
OH
A,B
NY
C,D
您可以使用 collect_set
或 collect_list
与小组一起完成
import pyspark.sql.functions as F
df.groupBy("state").agg(F.collect_set("code"))
我有以下数据集。
state | code |
---|---|
OH | A |
OH | B |
NY | C |
NY | D |
我想获取以下内容,然后将详细信息存入csv文件。我该怎么做?我尝试了 groupBy,但它似乎不起作用。
state | code |
---|---|
OH | A,B |
NY | C,D |
您可以使用 collect_set
或 collect_list
import pyspark.sql.functions as F
df.groupBy("state").agg(F.collect_set("code"))