如何将字符串中包含双引号的 json 文件加载到 spark scala 中的数据框中
How to load a json file which is having double quotes within a string into a dataframe in spark scala
我有下面的 json 文件,我想将其读入数据框,但我收到错误消息,因为 json 文件在 string.for 示例中有双引号:
数据:{
"Field1":"值"ue 1",
“字段 2”:“值 2”,
“字段 3”:“va”lu“e3”
}
需要输出"
Field1,Field2,Field3
值 1、值 2、值 2
您的 json 无效(因为嵌套的双引号),这就是您在使用 Spark 数据源 API 或任何其他 Json解析器。
你可以做的是将你的文件作为字符串数据集读取,然后使用正则表达式清理每个字符串以删除无用的双引号,最后使用“from_json”函数来解析每个字符串string 并将数据集从 Dataset[String] 转换为 Dataset[< your case class >].
我有下面的 json 文件,我想将其读入数据框,但我收到错误消息,因为 json 文件在 string.for 示例中有双引号:
数据:{ "Field1":"值"ue 1", “字段 2”:“值 2”, “字段 3”:“va”lu“e3” }
需要输出" Field1,Field2,Field3 值 1、值 2、值 2
您的 json 无效(因为嵌套的双引号),这就是您在使用 Spark 数据源 API 或任何其他 Json解析器。
你可以做的是将你的文件作为字符串数据集读取,然后使用正则表达式清理每个字符串以删除无用的双引号,最后使用“from_json”函数来解析每个字符串string 并将数据集从 Dataset[String] 转换为 Dataset[< your case class >].