如何使用 Apache Spark 将 JSON 文件转换为镶木地板?
How to convert a JSON file to parquet using Apache Spark?
我是 Apache Spark 1.3.1 的新手。如何将 JSON 文件转换为 Parquet?
Spark 1.4 及更高版本
您可以使用 sparkSQL 先将 JSON 文件读入 DataFrame,然后将 DataFrame 写入 parquet 文件。
val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")
或
df.save("path/to/parquet/file", "parquet")
查看 here and here 以获取示例和更多详细信息。
Spark 1.3.1
val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")
与 Windows 和 Spark 1.3.1
相关的问题
在 Windows 上将 DataFrame 保存为 parquet 文件将抛出 java.lang.NullPointerException
,如 here 所述。
在这种情况下,请考虑升级到较新的 Spark 版本。
我是 Apache Spark 1.3.1 的新手。如何将 JSON 文件转换为 Parquet?
Spark 1.4 及更高版本
您可以使用 sparkSQL 先将 JSON 文件读入 DataFrame,然后将 DataFrame 写入 parquet 文件。
val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")
或
df.save("path/to/parquet/file", "parquet")
查看 here and here 以获取示例和更多详细信息。
Spark 1.3.1
val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")
与 Windows 和 Spark 1.3.1
相关的问题在 Windows 上将 DataFrame 保存为 parquet 文件将抛出 java.lang.NullPointerException
,如 here 所述。
在这种情况下,请考虑升级到较新的 Spark 版本。