Scala - 排序RDD分区
Scala - sort RDD partitions
假设我有从 1 到 1,000,000,000 的整数 RDD,我想使用 foreachPartition 打印它们。可能会出现 5-6-7-8 的分区将在 1-2-3-4 之前打印的情况。我该如何防止这种情况?
谢谢,
玛雅
我认为做到这一点的唯一方法是确保只有一个分区,然后您就可以打印数据了。您可以在 RDD 上调用 repartition(1) 或 coalesce(1) 以减少分区数。对于您的用例,我认为合并更好,因为它避免了随机播放。
https://spark.apache.org/docs/1.3.1/programming-guide.html#transformations
假设我有从 1 到 1,000,000,000 的整数 RDD,我想使用 foreachPartition 打印它们。可能会出现 5-6-7-8 的分区将在 1-2-3-4 之前打印的情况。我该如何防止这种情况?
谢谢, 玛雅
我认为做到这一点的唯一方法是确保只有一个分区,然后您就可以打印数据了。您可以在 RDD 上调用 repartition(1) 或 coalesce(1) 以减少分区数。对于您的用例,我认为合并更好,因为它避免了随机播放。
https://spark.apache.org/docs/1.3.1/programming-guide.html#transformations