Dataframe.head() 需要永远

Dataframe.head() takes forever

我从 Blob 存储中导入了一个 JSON 文件,大小约为 50GB。

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

在导入到 Databricks spark 数据帧后,花了大约 40 分钟,我想用 df.head() 显示第一行。不幸的是,这需要永远。我让它 运行 持续了 60 分钟,但后来我停止了它。我是我做错了什么吗?

PS:我发现对于包含大约 1GB 的较小 json 文件,执行 df.head()df.first() 方法需要超过 2 分钟.对于 50GB json 这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧?

问题出在之前的代码中。数据转换错误,因此数据框损坏。