如何将数据框保存到 csv pyspark

Question

我正在尝试将数据帧保存到 hdfs 系统中。它被保存为 part-0000 并分为多个部分。我想将其保存为 excel sheet 还是仅保存一个零件文件？我们怎样才能做到这一点？

目前使用的代码：

  df1.write.csv('/user/gtree/tree.csv')

Answer 1

您的数据框是根据其分区保存的（多个分区=多个文件）。您可以合并或将分区减少到 1 个，这样只能写入 1 个文件。

df1.coalesce(1).write.csv('/user/gtree/tree.csv')

Answer 2

您可以使用 .repartition(1) 将分区设置为仅 1

df.repartition(1).save(filePath)

how to save dataframe into csv pyspark