在 Hadoop Streaming 作业中写入 Parquet 输出

Write Parquet Output in a Hadoop Streaming job

有没有办法使用 python.

通过 hadoop 流将文本数据写入 parquet 文件

基本上，我有一个字符串从我的 IdentityMapper 发出，我想将其存储为镶木地板文件。

输入或示例将非常有帮助

我怀疑没有内置的方法可以使用内置的 Hadoop Streaming 来执行此操作（我找不到），但是，根据您的数据集，您可以使用第 3 方包作为

要从 JSON 生成 Parquet，您的流代码会吐出 json 并且您可以使用 ParquetAsJsonOutputFormat.

与 AVRO 架构一起编写 Parquet

请注意，现阶段上面的包有一些限制（比如只能使用基本类型等）。

根据您的数据的性质，您也可以使用 Kite SDK，这里有简要说明：

这里：

干杯