在 Hadoop Streaming 作业中写入 Parquet 输出

Write Parquet Output in a Hadoop Streaming job

有没有办法使用 python.

通过 hadoop 流将文本数据写入 parquet 文件

基本上,我有一个字符串从我的 IdentityMapper 发出,我想将其存储为镶木地板文件。

输入或示例将非常有帮助

我怀疑没有内置的方法可以使用内置的 Hadoop Streaming 来执行此操作(我找不到),但是,根据您的数据集,您可以使用第 3 方包作为

https://github.com/whale2/iow-hadoop-streaming

要从 JSON 生成 Parquet,您的流代码会吐出 json 并且您可以使用 ParquetAsJsonOutputFormat.

与 AVRO 架构一起编写 Parquet

请注意,现阶段上面的包有一些限制(比如只能使用基本类型等)。

根据您的数据的性质,您也可以使用 Kite SDK,这里有简要说明:

https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/

这里:

https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630

干杯