如何使用 Java 在 spark 中加载多行 JSON
How to load multiline JSON in spark with Java
我正在寻找一种使用 Java 将多行 JSON 加载到 Spark 中的方法。 Spark SQLContext
有加载方法 JSON,但它只支持 "one record per line"。我有一个多行 JSON 文件需要处理。
示例输入:
JSON 包含单词、定义和例句:
{
"one-armedbandit":
[
{
"function": "noun",
"definition": "slot machine",
"examples":
[
]
}
],
...
}
Spark 摄取方法确实接受 json-line format。您可以考虑使用 json 处理器在处理之前将您的数据转换为这种格式。
我所做的是使用 JSON 处理器将 JSON 读入 POJO 列表,然后在 SparkContext
上调用 parallelize
以获得 JavaRDD
.
我正在寻找一种使用 Java 将多行 JSON 加载到 Spark 中的方法。 Spark SQLContext
有加载方法 JSON,但它只支持 "one record per line"。我有一个多行 JSON 文件需要处理。
示例输入: JSON 包含单词、定义和例句:
{
"one-armedbandit":
[
{
"function": "noun",
"definition": "slot machine",
"examples":
[
]
}
],
...
}
Spark 摄取方法确实接受 json-line format。您可以考虑使用 json 处理器在处理之前将您的数据转换为这种格式。
我所做的是使用 JSON 处理器将 JSON 读入 POJO 列表,然后在 SparkContext
上调用 parallelize
以获得 JavaRDD
.