如何在 Pyspark 中使用 group by 加入文本?
How to use join text with group by in Pyspark?
我有一个 pyspark 数据框
id
events
a0
a-markets-l1
a0
a-markets-watch
a0
a-markets-buy
c7
a-markets-z2
c7
scroll_down
a0
a-markets-sell
b2
next_screen
我正在尝试通过分组 ID 加入活动
这是我的 python 代码
df_events_userpath = df_events.groupby('id').agg({ 'events': lambda x: ' '.join(x)}).reset_index()
id
events
a0
a-markets-l1 a-markets-watch a-markets-buy a-markets-sell
c7
a-markets-z2 scroll_down
b2
next_screen
我试过使用collect_set
df.groupBy("id").agg(f.collect_set("events").alias("events"))
我有一个 pyspark 数据框
id | events |
---|---|
a0 | a-markets-l1 |
a0 | a-markets-watch |
a0 | a-markets-buy |
c7 | a-markets-z2 |
c7 | scroll_down |
a0 | a-markets-sell |
b2 | next_screen |
我正在尝试通过分组 ID 加入活动 这是我的 python 代码
df_events_userpath = df_events.groupby('id').agg({ 'events': lambda x: ' '.join(x)}).reset_index()
id | events |
---|---|
a0 | a-markets-l1 a-markets-watch a-markets-buy a-markets-sell |
c7 | a-markets-z2 scroll_down |
b2 | next_screen |
我试过使用collect_set
df.groupBy("id").agg(f.collect_set("events").alias("events"))