跨工作节点分布 collect_list 函数

distributing collect_list function across worker nodes

我正在 pyspark 中使用以下代码执行聚合数组集合:

df1=df.groupBy('key').agg(collect_list('value'))

我知道像收集强制数据到单个节点这样的函数。是否有可能在利用分布式云计算的能力的同时达到相同的结果?

这里好像有点误会

collect 强制通过驱动程序收集数据并且不分发

collect_listcollect_set默认是分布式操作。