我们可以设置从 s3 分区路径中删除列名并将路径设置为值吗?
Can we set remove column names from s3 partition path and set path to values?
我只是好奇,对于使用 Glue sinkFormat 的 Spark,是否可以将文件保存为“2021/05/05/filename.parquet
”而不是“year=2021/month=05/day=05/filename.parquet
”。我尝试使用 'writepath' 但它的工作效率达到了创纪录的水平,我相信它会破坏 Spark 保存分区文件的能力。
这是不可能的。
分区会删除用于分区的列。
Spark 使用目录结构进行分区发现和正确的结构,因此包含列名对于它的工作是必要的。
我只是好奇,对于使用 Glue sinkFormat 的 Spark,是否可以将文件保存为“2021/05/05/filename.parquet
”而不是“year=2021/month=05/day=05/filename.parquet
”。我尝试使用 'writepath' 但它的工作效率达到了创纪录的水平,我相信它会破坏 Spark 保存分区文件的能力。
这是不可能的。
分区会删除用于分区的列。 Spark 使用目录结构进行分区发现和正确的结构,因此包含列名对于它的工作是必要的。