pyspark 数据框有效 json

pyspark dataframe to valid json

我正在尝试将数据帧转换为有效的 json 格式,但是我还没有成功。

如果我这样做:

fullDataset.repartition(1).write.json(f'{mount_point}/eds_ckan', mode='overwrite', ignoreNullFields=False)

我只获取基于行的 json,如下所示:

{"col1":"2021-10-09T12:00:00.000Z","col2":336,"col3":0.0}
{"col1":"2021-10-16T20:00:00.000Z","col2":779,"col3":6965.396}
{"col1":"2021-10-17T12:00:00.000Z","col2":350,"col3":0.0}

有谁知道如何将其转换为非基于行的有效 json?

下面是将数据帧转换为有效数据帧的示例 Json

尝试使用 Collect,然后使用 json.dump

import json
collected_df = df_final.collect()
with open(data_output_file + 'createjson.json', 'w') as outfile:
    json.dump(data, outfile)

这里有几个相关讨论的链接,您可以浏览以获取完整信息。

Dataframe to valid JSON

Valid JSON in spark