跨工作节点分布 collect_list 函数

Question

我正在 pyspark 中使用以下代码执行聚合数组集合：

df1=df.groupBy('key').agg(collect_list('value'))

我知道像收集强制数据到单个节点这样的函数。是否有可能在利用分布式云计算的能力的同时达到相同的结果？

Answer 1

这里好像有点误会

collect 强制通过驱动程序收集数据并且不分发

而

collect_list和collect_set默认是分布式操作。

distributing collect_list function across worker nodes