Json 文件正在数据块中显示
Json file is being showed in data bricks
我正在尝试读取 pyspark 中的 JSON 文件。当尝试读取为 df 时它正在读取但当要求显示它时出现错误:-
df = spark.read.format("json") \
.load(path)
df.show()
错误:
AnalysisException: Since Spark 2.3, the queries from raw JSON/CSV files are disallowed when the
我的JSON数据如下:-
[
{
"Rollno": 19,
"sex": "female",
"Rank": 9,
"Date": "11/12/2020"
},
{
"Rollno": 18,
"sex": "male",
"bmi": 7,
"Date": "11/12/2020"
},
and so on.
为什么会出现此错误?我读错了吗?读取和显示 JSON 文件的最佳方式是什么?
默认情况下,Spark 期望每一行都包含完整的 JSON 字符串。如果您的文件只包含一个 JSON 对象,那么您可能需要使用 JSON reader 的 multiLine
选项,如下所示:
df = spark.read.option("multiLine", 'true').json(path)
我正在尝试读取 pyspark 中的 JSON 文件。当尝试读取为 df 时它正在读取但当要求显示它时出现错误:-
df = spark.read.format("json") \
.load(path)
df.show()
错误:
AnalysisException: Since Spark 2.3, the queries from raw JSON/CSV files are disallowed when the
我的JSON数据如下:-
[
{
"Rollno": 19,
"sex": "female",
"Rank": 9,
"Date": "11/12/2020"
},
{
"Rollno": 18,
"sex": "male",
"bmi": 7,
"Date": "11/12/2020"
},
and so on.
为什么会出现此错误?我读错了吗?读取和显示 JSON 文件的最佳方式是什么?
默认情况下,Spark 期望每一行都包含完整的 JSON 字符串。如果您的文件只包含一个 JSON 对象,那么您可能需要使用 JSON reader 的 multiLine
选项,如下所示:
df = spark.read.option("multiLine", 'true').json(path)