如何在 Pyspark 中使用 group by 加入文本？

Question

我有一个 pyspark 数据框

我正在尝试通过分组 ID 加入活动这是我的 python 代码

df_events_userpath = df_events.groupby('id').agg({ 'events': lambda x: ' '.join(x)}).reset_index()

id	events
a0	a-markets-l1 a-markets-watch a-markets-buy a-markets-sell
c7	a-markets-z2 scroll_down
b2	next_screen

Answer 1

我试过使用collect_set

df.groupBy("id").agg(f.collect_set("events").alias("events"))

How to use join text with group by in Pyspark?