什么时候 spark groupby 比 reducebykey 更受欢迎?

When is spark groupby preferred over reducebykey?

我的数据集很大,我想了解什么时候 groupbyreducebykey 更有意义?

reduceByKey 执行 map side combine,减少了 shuffle 期间通过网络发送的数据量,从而也减少了减少的数据量。尽可能使用 reducebyKey