AWS glue parquet 转换为 s3

AWS glue parquet conversion in to s3

etl
aws-glue

我们正在使用 aws glue etl 作业将 s3 Json 或 CSV 转换为 parquet 格式，并将结果保存在 nnew s3 中。这项工作是运行定期进行的。我们面临一个问题，例如，如果我们每次运行时都有 10json 文件，它会创建新的 10parquet 文件，因此它变成 10 20 30 40....等等，我们只想看到 10 个文件。有什么方法可以覆盖现有的镶木地板文件。我们只使用胶水生成的 Python 脚本。我们可以只转换更新的文件还是可以逾期所有文件？

df.write.mode('overwrite').parquet("/output/folder/path") 如果您想使用 python.

覆盖镶木地板文件，则可以使用

AWS glue parquet 转换为 s3

AWS glue parquet conversion in to s3

etl

aws-glue