在 Hadoop Streaming 作业中写入 Parquet 输出
Write Parquet Output in a Hadoop Streaming job
有没有办法使用 python.
通过 hadoop 流将文本数据写入 parquet 文件
基本上,我有一个字符串从我的 IdentityMapper 发出,我想将其存储为镶木地板文件。
输入或示例将非常有帮助
我怀疑没有内置的方法可以使用内置的 Hadoop Streaming 来执行此操作(我找不到),但是,根据您的数据集,您可以使用第 3 方包作为
https://github.com/whale2/iow-hadoop-streaming
要从 JSON 生成 Parquet,您的流代码会吐出 json 并且您可以使用 ParquetAsJsonOutputFormat
.
与 AVRO 架构一起编写 Parquet
请注意,现阶段上面的包有一些限制(比如只能使用基本类型等)。
根据您的数据的性质,您也可以使用 Kite SDK,这里有简要说明:
https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/
这里:
https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630
干杯
有没有办法使用 python.
通过 hadoop 流将文本数据写入 parquet 文件基本上,我有一个字符串从我的 IdentityMapper 发出,我想将其存储为镶木地板文件。
输入或示例将非常有帮助
我怀疑没有内置的方法可以使用内置的 Hadoop Streaming 来执行此操作(我找不到),但是,根据您的数据集,您可以使用第 3 方包作为
https://github.com/whale2/iow-hadoop-streaming
要从 JSON 生成 Parquet,您的流代码会吐出 json 并且您可以使用 ParquetAsJsonOutputFormat
.
请注意,现阶段上面的包有一些限制(比如只能使用基本类型等)。
根据您的数据的性质,您也可以使用 Kite SDK,这里有简要说明:
https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/
这里:
https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630
干杯