输出分区数

Number of Output Partitions

假设在 AWS Glue 作业中,在日志中看到以下输出:

21/07/27 18:25:36 INFO DAGScheduler: Got job 1 (toPandas at /tmp/test.py:742) with 100000 output partitions 

Spark是否动态设置输出分区数?有什么方法可以为特定作业提前设置输出分区的数量吗?

您可以在您的数据框上尝试以下方法。

repartition() - 当你想增加分区数时

coalesce() - 当你想减少分区数时。