com.amazonaws.services.glue.writeDynamicFrame 的 SparkQL 选项是什么?

What are the SparkQL options for com.amazonaws.services.glue.writeDynamicFrame?

在本文档中:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

它提到:"any options that are accepted by the underlying SparkSQL code can be passed to it by way of the connection_options map parameter."

但是,我怎样才能知道这些选项是什么? Glue 代码和 SparkQL 代码之间没有明确的映射。

(具体来说,我想弄清楚如何控制生成的 parquet 文件的大小)

可以在 DataFrameWriter 文档(在 Scala or pyspark 文档中)中查找各种数据源的 SparkSQL 选项。写入 parquet 的数据源似乎只采用 compression 参数。对于读取数据时的 SparkSQL 选项,请查看 DataFrameReader class.

要控制输出文件的大小,您应该使用并行机制——就像@Yuri Bondaruk 评论的那样——使用例如 coalesc 函数。