在 Cygnus 中使用 Parquet 格式
Using Parquet format with Cygnus
我想以 Parquet 格式存储事件数据(例如,在 HDFS 上)。我需要修改相应接收器的代码,还是有办法解决?例如,使用 Flume 拦截器。谢谢。
一方面,OrionHDFSSink
上有关于特定 Parquet 支持的 issue regarding Cygnus about modifying the code having in mind the goal of supporting multiple output formats when writting to HDFS. The modification was done, but only support for our custom Json and CSV formats were coded. This meas the code is ready for being modified in order to add a third format. I've added a new issue;如果您最终决定进行修改,我可以将问题分配给您:)
另一方面,您始终可以使用本机 HDFS 接收器(保留所有通知主体)并有效地编写自定义拦截器。
如您所见,在这两种情况下,您都必须编写 Parquet 部分的代码(或者等到我们有足够的空间来实现它)。
我想以 Parquet 格式存储事件数据(例如,在 HDFS 上)。我需要修改相应接收器的代码,还是有办法解决?例如,使用 Flume 拦截器。谢谢。
一方面,OrionHDFSSink
上有关于特定 Parquet 支持的 issue regarding Cygnus about modifying the code having in mind the goal of supporting multiple output formats when writting to HDFS. The modification was done, but only support for our custom Json and CSV formats were coded. This meas the code is ready for being modified in order to add a third format. I've added a new issue;如果您最终决定进行修改,我可以将问题分配给您:)
另一方面,您始终可以使用本机 HDFS 接收器(保留所有通知主体)并有效地编写自定义拦截器。
如您所见,在这两种情况下,您都必须编写 Parquet 部分的代码(或者等到我们有足够的空间来实现它)。