将文件名输出到 pyspark 中的最终文件夹
Output file name to final folder in pyspark
我想在输出文件夹中写入数据,而不是spark的标准格式:
有什么方法可以输出只有特定文件名和扩展名的数据(json)?
在此先感谢您的帮助!
不,没有。将所有内容都放在一个分区中然后写入它并不是 Spark 的预期用例。为了保持一致的行为,在写入数据集时忽略 DataFrame 的分区数,始终创建一个文件夹,该文件夹中的每个文件都与正在处理的分区相关。
但是,如果您知道驱动程序可以容纳分区,那么您可以使用标准 Python 功能:
import json
data = [row.asDict() for row in dataframe.collect()]
with open("name_of_file.json", "w") as fh:
json.dump(obj=data, fp=fh)
请注意,在这种情况下,您不会获得 JSONlines 格式,但也有解决方法。
我想在输出文件夹中写入数据,而不是spark的标准格式:
有什么方法可以输出只有特定文件名和扩展名的数据(json)?
在此先感谢您的帮助!
不,没有。将所有内容都放在一个分区中然后写入它并不是 Spark 的预期用例。为了保持一致的行为,在写入数据集时忽略 DataFrame 的分区数,始终创建一个文件夹,该文件夹中的每个文件都与正在处理的分区相关。
但是,如果您知道驱动程序可以容纳分区,那么您可以使用标准 Python 功能:
import json
data = [row.asDict() for row in dataframe.collect()]
with open("name_of_file.json", "w") as fh:
json.dump(obj=data, fp=fh)
请注意,在这种情况下,您不会获得 JSONlines 格式,但也有解决方法。