如何使用 Java 在 spark 中加载多行 JSON

How to load multiline JSON in spark with Java

我正在寻找一种使用 Java 将多行 JSON 加载到 Spark 中的方法。 Spark SQLContext 有加载方法 JSON,但它只支持 "one record per line"。我有一个多行 JSON 文件需要处理。

示例输入: JSON 包含单词、定义和例句:

{
"one-armedbandit": 
    [
        {
            "function": "noun",
            "definition": "slot machine",
            "examples": 
            [
            ]
        }
    ],
...
}

Spark 摄取方法确实接受 json-line format。您可以考虑使用 json 处理器在处理之前将您的数据转换为这种格式。

我所做的是使用 JSON 处理器将 JSON 读入 POJO 列表,然后在 SparkContext 上调用 parallelize 以获得 JavaRDD.