如何将字符串中包含双引号的 json 文件加载到 spark scala 中的数据框中

How to load a json file which is having double quotes within a string into a dataframe in spark scala

我有下面的 json 文件，我想将其读入数据框，但我收到错误消息，因为 json 文件在 string.for 示例中有双引号：

数据：{ "Field1":"值"ue 1", “字段 2”：“值 2”， “字段 3”：“va”lu“e3” }

需要输出" Field1,Field2,Field3 值 1、值 2、值 2

您的 json 无效（因为嵌套的双引号），这就是您在使用 Spark 数据源 API 或任何其他 Json解析器。

你可以做的是将你的文件作为字符串数据集读取，然后使用正则表达式清理每个字符串以删除无用的双引号，最后使用“from_json”函数来解析每个字符串string 并将数据集从 Dataset[String] 转换为 Dataset[< your case class >].