Pyspark 将输出保存为多种格式

Pyspark save output into multiple formats

正在寻找将 pyspark 输出一起保存到 parquet 和 csv 中。

现在我正在为镶木地板准备这条线:

self.func().coalesce(1).write.parquet(outputDir)

有没有办法将它一起保存到多个文件中?还是我必须读取输出文件并将其保存为 csv?

谢谢!

您需要运行保存两次.. df.coalesce(x).write.format("实木复合地板").保存(path1) 和 df.coalesce(x).write.format("csv").save(path2) 其中 path1 是 /data_parquet 路径 2 是 /data_csv。 您不能在一次操作中将两种格式保存在同一文件夹中