pyspark 将 rdd 存储在现有文件夹中而不覆盖

pyspark store rdd in an existing folder without overwrite

我试过在 PySpark 1.3.1 中使用 saveAsTextFile() 函数；但是，如果我没有删除现有目录，则会出现输出目录已存在的异常。我想知道有没有办法在不覆盖的情况下将 spark RDD 增量存储到现有文件夹？

不，您不能这样做：这是为了避免意外覆盖文件。

您可以做的是指定现有目录的子文件夹，然后您可以在需要时检索所有子文件夹中的所有数据。

否则，您唯一的选择就是将生成的文件放在一个临时文件夹中，然后将它们移动到您需要的任何位置。这当然可以手动实现，也可以使用 oozie.

或者您可以将输出目录读取到 RDD 并将两个 RDD 合并并写入并覆盖该目录。