将 Spark DataFrame 覆盖到位置

Question

我想使用 spark_write_* 函数将我的 Spark DataFrame 保存到目录中，如下所示：

spark_write_csv(df, "file:///home/me/dir/")

但如果该目录已经存在，我将收到错误消息：

ERROR: org.apache.spark.sql.AnalysisException: path file:/home/me/dir/ already exists.;

当我处理相同的数据时，我想覆盖这个目录 - 我该如何实现？在文档中有一个参数：

mode  Specifies the behavior when data or table already exists.

但它没有说明您应该使用什么值。

Answer 1

参数 mode 的值应为 "overwrite":

spark_write_csv(df, "file:///home/me/dir/", mode = "overwrite")

Overwrite a Spark DataFrame into location