在没有 headers 的情况下将 Pyspark Dataframe 保存到 csv

Save Pyspark Dataframe into csv without headers

我正在寻找一种无需指定 headers.

即可将数据框保存到 csv 文件中的方法

我尝试了下面的代码,但没有用。

ratingsDF.coalesce(1).write.option("header", "false")\
.csv("csv_file_without_headers.csv")

对于下面的数据框:

+---------+-----+
|   x|   y|    z|
+----+----+-----+
|   0|   a|    5|
|   1|   b|   12|
|   2|   c|    7|
|   3|   d|   27|
|   4|   e|  149|
|   5|   f|   19|
+---------+-----+

csv的预期结果:

O,a,5
1,b,12
2,c,7
3,d,27
4,e,149
5,f,19

您的选项看起来正确,正在写入的 csv 文件 不会 headers.

在 Spark 中,无法写入 file csv_file_without_headers.csv 而是检查 csv_file_without_headers.csv directory.

  • 目录下可以看到目录下的所有文件没有header.

试试这个,

ratingsDF.coalesce(1).write.csv("/path/to/save/csv/")

默认保存 csv 而没有 header 的位置。您不能指定 csv 文件名,只能指定路径。

你可以简单地做:

ratingsDF.coalesce(1).write.csv("csv_file_without_headers.csv", header = False)