输出分区数
Number of Output Partitions
假设在 AWS Glue 作业中,在日志中看到以下输出:
21/07/27 18:25:36 INFO DAGScheduler: Got job 1 (toPandas at /tmp/test.py:742) with 100000 output partitions
Spark是否动态设置输出分区数?有什么方法可以为特定作业提前设置输出分区的数量吗?
您可以在您的数据框上尝试以下方法。
repartition()
- 当你想增加分区数时
coalesce()
- 当你想减少分区数时。
假设在 AWS Glue 作业中,在日志中看到以下输出:
21/07/27 18:25:36 INFO DAGScheduler: Got job 1 (toPandas at /tmp/test.py:742) with 100000 output partitions
Spark是否动态设置输出分区数?有什么方法可以为特定作业提前设置输出分区的数量吗?
您可以在您的数据框上尝试以下方法。
repartition()
- 当你想增加分区数时
coalesce()
- 当你想减少分区数时。