pySpark:是否可以使用每组一个节点的 groupBy()?

pySpark: is it possible to groupBy() with one single node per group?

我正在使用 pySpark 计算每组矩阵。如果 Spark 将任何给定组的行存储在一个节点上,看起来计算会更快,因此 Spark 可以在本地计算每个矩阵。恐怕节点间合作需要更长的时间。

map()groupBy()通常会实现这种事情吗?如果可能,我是否应该尝试将其指定为一个选项?

注意。矩阵包括计算每个(排序的)组内每一行与前一行之间的距离。

Spark 似乎默认会这样做。

看这里:http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

我猜你问的是 mapPartitions()。然后操作在每个分区中本地发生。