使用 Apache Flume 将 CSV 转换为 Parquet?

Transform CSV into Parquet using Apache Flume?

我有一个问题,是否可以使用 flume 对数据执行 ETL。 更具体地说,我在包含 CSV 文件的 spoolDir 上配置了 flume,我想在将这些文件存储到 Hadoop 之前将它们转换为 Parquet 文件。可能吗?

如果不可能,您会建议在存储到 Hadoop 之前转换它们,还是使用 Hadoop 上的 spark 转换它们?

我可能会建议使用 nifi to move the files around. Here's a specific tutorial on how to do that with Parquet。我觉得 nifi 是 Apache 的替代品 Flume.

Flume 部分答案:(不是 Parquet) 如果您对格式灵活,则可以使用 avro 接收器。您可以使用蜂巢接收器,它将创建一个 ORC 格式的 table。(您可以查看它是否也允许在定义中使用镶木地板,但我听说 ORC 是唯一受支持的格式。)

您可能会使用一些简单的脚本来使用配置单元将数据从 Orc table 移动到 Parquet table。 (正在将文件转换为您要求的镶木地板文件。)