如何将数据框保存到 csv pyspark
how to save dataframe into csv pyspark
我正在尝试将数据帧保存到 hdfs 系统中。
它被保存为 part-0000 并分为多个部分。
我想将其保存为 excel sheet 还是仅保存一个零件文件?
我们怎样才能做到这一点?
目前使用的代码:
df1.write.csv('/user/gtree/tree.csv')
您的数据框是根据其分区保存的(多个分区=多个文件)。您可以合并或将分区减少到 1 个,这样只能写入 1 个文件。
Link:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.coalesce
df1.coalesce(1).write.csv('/user/gtree/tree.csv')
您可以使用 .repartition(1)
将分区设置为仅 1
df.repartition(1).save(filePath)
我正在尝试将数据帧保存到 hdfs 系统中。 它被保存为 part-0000 并分为多个部分。 我想将其保存为 excel sheet 还是仅保存一个零件文件? 我们怎样才能做到这一点?
目前使用的代码:
df1.write.csv('/user/gtree/tree.csv')
您的数据框是根据其分区保存的(多个分区=多个文件)。您可以合并或将分区减少到 1 个,这样只能写入 1 个文件。
Link:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.coalesce
df1.coalesce(1).write.csv('/user/gtree/tree.csv')
您可以使用 .repartition(1)
将分区设置为仅 1
df.repartition(1).save(filePath)