pySpark:是否可以使用每组一个节点的 groupBy()?
pySpark: is it possible to groupBy() with one single node per group?
我正在使用 pySpark 计算每组矩阵。如果 Spark 将任何给定组的行存储在一个节点上,看起来计算会更快,因此 Spark 可以在本地计算每个矩阵。恐怕节点间合作需要更长的时间。
map()
和groupBy()
通常会实现这种事情吗?如果可能,我是否应该尝试将其指定为一个选项?
注意。矩阵包括计算每个(排序的)组内每一行与前一行之间的距离。
Spark 似乎默认会这样做。
看这里:http://backtobazics.com/big-data/spark/apache-spark-groupby-example/
我猜你问的是 mapPartitions()
。然后操作在每个分区中本地发生。
我正在使用 pySpark 计算每组矩阵。如果 Spark 将任何给定组的行存储在一个节点上,看起来计算会更快,因此 Spark 可以在本地计算每个矩阵。恐怕节点间合作需要更长的时间。
map()
和groupBy()
通常会实现这种事情吗?如果可能,我是否应该尝试将其指定为一个选项?
注意。矩阵包括计算每个(排序的)组内每一行与前一行之间的距离。
Spark 似乎默认会这样做。
看这里:http://backtobazics.com/big-data/spark/apache-spark-groupby-example/
我猜你问的是 mapPartitions()
。然后操作在每个分区中本地发生。