pyspark 将 rdd 存储在现有文件夹中而不覆盖

pyspark store rdd in an existing folder without overwrite

我试过在 PySpark 1.3.1 中使用 saveAsTextFile() 函数;但是,如果我没有删除现有目录,则会出现输出目录已存在的异常。 我想知道有没有办法在不覆盖的情况下将 spark RDD 增量存储到现有文件夹?

不,您不能这样做:这是为了避免意外覆盖文件。

您可以做的是指定现有目录的子文件夹,然后您可以在需要时检索所有子文件夹中的所有数据。

否则,您唯一的选择就是将生成的文件放在一个临时文件夹中,然后将它们移动到您需要的任何位置。这当然可以手动实现,也可以使用 oozie.

或者您可以将输出目录读取到 RDD 并将两个 RDD 合并并写入并覆盖该目录。