Dataframe.head() 需要永远

Question

我从 Blob 存储中导入了一个 JSON 文件，大小约为 50GB。

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

在导入到 Databricks spark 数据帧后，花了大约 40 分钟，我想用 df.head() 显示第一行。不幸的是，这需要永远。我让它运行持续了 60 分钟，但后来我停止了它。我是我做错了什么吗？

PS：我发现对于包含大约 1GB 的较小 json 文件，执行 df.head() 或 df.first() 方法需要超过 2 分钟.对于 50GB json 这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧？

Answer 1

问题出在之前的代码中。数据转换错误，因此数据框损坏。

Dataframe.head() takes forever