从 codebuild 到 aws codeartifact 的诗歌发布因 UploadError 而失败

poetry publish from codebuild to aws codeartifact fails with UploadError

我有一个数据集需要定期导入到我的数据湖,替换当前数据集 在我生成一个数据框之后,我现在做的是:

df.write.format("delta").save("dbfs:/mnt/defaultDatalake/datasets/datasources")

但是如果我再次 运行 作业,我会收到以下错误:

AnalysisException: dbfs:/mnt/defaultDatalake/datasets/insights/datasources already exists.;

虽然我知道我以前可以做 dbutils.fs.rm,但我宁愿只是“替换”那里的数据 有办法实现吗?

使用 overwrite mode:

df.write.format("delta").mode("overwrite").save(....)

如果新数据框有不同的架构,那么您可能还需要添加 .option("overwriteSchema", "true")(有关详细信息,请参阅此 blog post