Pyspark 将输出保存为多种格式
Pyspark save output into multiple formats
正在寻找将 pyspark 输出一起保存到 parquet 和 csv 中。
现在我正在为镶木地板准备这条线:
self.func().coalesce(1).write.parquet(outputDir)
有没有办法将它一起保存到多个文件中?还是我必须读取输出文件并将其保存为 csv?
谢谢!
您需要运行保存两次..
df.coalesce(x).write.format("实木复合地板").保存(path1)
和 df.coalesce(x).write.format("csv").save(path2)
其中 path1 是 /data_parquet
路径 2 是 /data_csv。
您不能在一次操作中将两种格式保存在同一文件夹中
正在寻找将 pyspark 输出一起保存到 parquet 和 csv 中。
现在我正在为镶木地板准备这条线:
self.func().coalesce(1).write.parquet(outputDir)
有没有办法将它一起保存到多个文件中?还是我必须读取输出文件并将其保存为 csv?
谢谢!
您需要运行保存两次.. df.coalesce(x).write.format("实木复合地板").保存(path1) 和 df.coalesce(x).write.format("csv").save(path2) 其中 path1 是 /data_parquet 路径 2 是 /data_csv。 您不能在一次操作中将两种格式保存在同一文件夹中