为什么更改胶水作业脚本后目标数据没有更新?
Why isn't target data updated after changing glue job scripte?
我定义了一个 glue job
来将数据从 s3 源存储桶转换到 s3 目标存储桶。我在作业中使用的脚本是Python
。它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来更改模式以删除一个字段 (edited
):
applymapping1 = applymapping1.drop_fields(['edited'])
重新运行 作业后,到达 s3 源存储桶的新数据遵循新方案,但目标存储桶上的旧数据未更新。如何让 glue
作业针对目标存储桶上的现有数据进行 运行?我是否必须删除存储桶并重新运行 作业?
Glue 不会覆盖目标数据。它总是附加新文件 ()。因此,如果更改了输出架构,那么您需要删除旧数据文件并重新运行 作业以生成新文件。
或者,您可以 。
我定义了一个 glue job
来将数据从 s3 源存储桶转换到 s3 目标存储桶。我在作业中使用的脚本是Python
。它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来更改模式以删除一个字段 (edited
):
applymapping1 = applymapping1.drop_fields(['edited'])
重新运行 作业后,到达 s3 源存储桶的新数据遵循新方案,但目标存储桶上的旧数据未更新。如何让 glue
作业针对目标存储桶上的现有数据进行 运行?我是否必须删除存储桶并重新运行 作业?
Glue 不会覆盖目标数据。它总是附加新文件 (
或者,您可以