如何将字符串中包含双引号的 json 文件加载到 spark scala 中的数据框中

How to load a json file which is having double quotes within a string into a dataframe in spark scala

我有下面的 json 文件,我想将其读入数据框,但我收到错误消息,因为 json 文件在 string.for 示例中有双引号:

数据:{ "Field1":"值"ue 1", “字段 2”:“值 2”, “字段 3”:“va”lu“e3” }

需要输出" Field1,Field2,Field3 值 1、值 2、值 2

您的 json 无效(因为嵌套的双引号),这就是您在使用 Spark 数据源 API 或任何其他 Json解析器。

你可以做的是将你的文件作为字符串数据集读取,然后使用正则表达式清理每个字符串以删除无用的双引号,最后使用“from_json”函数来解析每个字符串string 并将数据集从 Dataset[String] 转换为 Dataset[< your case class >].