如何使用 Apache Spark 将 JSON 文件转换为镶木地板?

How to convert a JSON file to parquet using Apache Spark?

我是 Apache Spark 1.3.1 的新手。如何将 JSON 文件转换为 Parquet?

Spark 1.4 及更高版本

您可以使用 sparkSQL 先将 JSON 文件读入 DataFrame,然后将 DataFrame 写入 parquet 文件。

val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")

df.save("path/to/parquet/file", "parquet")

查看 here and here 以获取示例和更多详细信息。

Spark 1.3.1

val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")

与 Windows 和 Spark 1.3.1

相关的问题

在 Windows 上将 DataFrame 保存为 parquet 文件将抛出 java.lang.NullPointerException,如 here 所述。

在这种情况下,请考虑升级到较新的 Spark 版本。