Dataframe.head() 需要永远
Dataframe.head() takes forever
我从 Blob 存储中导入了一个 JSON 文件,大小约为 50GB。
dsm_temperature_df = spark.read.json(file_location, multiLine=True)
在导入到 Databricks spark 数据帧后,花了大约 40 分钟,我想用 df.head()
显示第一行。不幸的是,这需要永远。我让它 运行 持续了 60 分钟,但后来我停止了它。我是我做错了什么吗?
PS:我发现对于包含大约 1GB 的较小 json 文件,执行 df.head()
或 df.first()
方法需要超过 2 分钟.对于 50GB json 这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧?
问题出在之前的代码中。数据转换错误,因此数据框损坏。
我从 Blob 存储中导入了一个 JSON 文件,大小约为 50GB。
dsm_temperature_df = spark.read.json(file_location, multiLine=True)
在导入到 Databricks spark 数据帧后,花了大约 40 分钟,我想用 df.head()
显示第一行。不幸的是,这需要永远。我让它 运行 持续了 60 分钟,但后来我停止了它。我是我做错了什么吗?
PS:我发现对于包含大约 1GB 的较小 json 文件,执行 df.head()
或 df.first()
方法需要超过 2 分钟.对于 50GB json 这意味着需要 100 多分钟才能获得第一行。这不可能是真的吧?
问题出在之前的代码中。数据转换错误,因此数据框损坏。