AWS glue parquet 转换为 s3
AWS glue parquet conversion in to s3
我们正在使用 aws glue etl 作业将 s3 Json 或 CSV 转换为 parquet 格式,并将结果保存在 nnew s3 中。
这项工作是 运行 定期进行的。
我们面临一个问题,例如,如果我们每次运行时都有 10json 文件,它会创建新的 10parquet 文件,因此它变成 10 20 30 40....等等,我们只想看到 10 个文件。
有什么方法可以覆盖现有的镶木地板文件。我们只使用胶水生成的 Python 脚本。
我们可以只转换更新的文件还是可以逾期所有文件?
df.write.mode('overwrite').parquet("/output/folder/path") 如果您想使用 python.
覆盖镶木地板文件,则可以使用
我们正在使用 aws glue etl 作业将 s3 Json 或 CSV 转换为 parquet 格式,并将结果保存在 nnew s3 中。 这项工作是 运行 定期进行的。 我们面临一个问题,例如,如果我们每次运行时都有 10json 文件,它会创建新的 10parquet 文件,因此它变成 10 20 30 40....等等,我们只想看到 10 个文件。 有什么方法可以覆盖现有的镶木地板文件。我们只使用胶水生成的 Python 脚本。 我们可以只转换更新的文件还是可以逾期所有文件?
df.write.mode('overwrite').parquet("/output/folder/path") 如果您想使用 python.
覆盖镶木地板文件,则可以使用