pySpark：是否可以使用每组一个节点的 groupBy()？

pySpark: is it possible to groupBy() with one single node per group?

我正在使用 pySpark 计算每组矩阵。如果 Spark 将任何给定组的行存储在一个节点上，看起来计算会更快，因此 Spark 可以在本地计算每个矩阵。恐怕节点间合作需要更长的时间。

map()和groupBy()通常会实现这种事情吗？如果可能，我是否应该尝试将其指定为一个选项？

注意。矩阵包括计算每个（排序的）组内每一行与前一行之间的距离。

Spark 似乎默认会这样做。

看这里：http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

我猜你问的是 mapPartitions()。然后操作在每个分区中本地发生。