从 codebuild 到 aws codeartifact 的诗歌发布因 UploadError 而失败
poetry publish from codebuild to aws codeartifact fails with UploadError
我有一个数据集需要定期导入到我的数据湖,替换当前数据集
在我生成一个数据框之后,我现在做的是:
df.write.format("delta").save("dbfs:/mnt/defaultDatalake/datasets/datasources")
但是如果我再次 运行 作业,我会收到以下错误:
AnalysisException: dbfs:/mnt/defaultDatalake/datasets/insights/datasources already exists.;
虽然我知道我以前可以做 dbutils.fs.rm
,但我宁愿只是“替换”那里的数据
有办法实现吗?
使用 overwrite mode:
df.write.format("delta").mode("overwrite").save(....)
如果新数据框有不同的架构,那么您可能还需要添加 .option("overwriteSchema", "true")
(有关详细信息,请参阅此 blog post)
我有一个数据集需要定期导入到我的数据湖,替换当前数据集 在我生成一个数据框之后,我现在做的是:
df.write.format("delta").save("dbfs:/mnt/defaultDatalake/datasets/datasources")
但是如果我再次 运行 作业,我会收到以下错误:
AnalysisException: dbfs:/mnt/defaultDatalake/datasets/insights/datasources already exists.;
虽然我知道我以前可以做 dbutils.fs.rm
,但我宁愿只是“替换”那里的数据
有办法实现吗?
使用 overwrite mode:
df.write.format("delta").mode("overwrite").save(....)
如果新数据框有不同的架构,那么您可能还需要添加 .option("overwriteSchema", "true")
(有关详细信息,请参阅此 blog post)