com.amazonaws.services.glue.writeDynamicFrame 的 SparkQL 选项是什么？

What are the SparkQL options for com.amazonaws.services.glue.writeDynamicFrame?

在本文档中：https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

它提到："any options that are accepted by the underlying SparkSQL code can be passed to it by way of the connection_options map parameter."

但是，我怎样才能知道这些选项是什么？ Glue 代码和 SparkQL 代码之间没有明确的映射。

（具体来说，我想弄清楚如何控制生成的 parquet 文件的大小）

可以在 DataFrameWriter 文档（在 Scala or pyspark 文档中）中查找各种数据源的 SparkSQL 选项。写入 parquet 的数据源似乎只采用 compression 参数。对于读取数据时的 SparkSQL 选项，请查看 DataFrameReader class.

要控制输出文件的大小，您应该使用并行机制——就像@Yuri Bondaruk 评论的那样——使用例如 coalesc 函数。

com.amazonaws.services.glue.writeDynamicFrame 的 SparkQL 选项是什么？

What are the SparkQL options for com.amazonaws.services.glue.writeDynamicFrame?

apache-spark-sql

aws-glue