如何使用 flume 将 zip 文件上传到 hdfs sink

How to use flume for uploading zip files to hdfs sink

我是 flume.My flume 代理的新手,它的源作为 http 服务器,从那里它获取 zip 文件(压缩的 xml 文件)在常规 interval.This zip 文件上非常小(小于 10 mb),我想将提取的 zip 文件放入 hdfs sink.Please 分享一些想法如何做 this.Do 我必须使用自定义拦截器。

Flume 将尝试逐行读取您的文件,除非您配置了特定的反序列化器。反序列化器可让您控制文件的解析方式和拆分为事件的方式。您当然可以按照专为 PDF 等设计的 blob 反序列化器的示例,但我知道您实际上想要解压缩它们,然后逐行阅读它们。在这种情况下,您需要编写一个自定义解串器,它读取 Zip 并逐行写入事件。

这是文档中的引用:

https://flume.apache.org/FlumeUserGuide.html#event-deserializers