Apache Nifi - 使用 Kafka + 合并内容 + 放置 HDFS 以避免小文件

Apache Nifi - Consume Kafka + Merge Content + Put HDFS to avoid small files

我在 Kafka 主题中有大约 2000000 条消息,我想使用 NiFi 将这些记录放入 HDFS,因此我为此使用 PutHDFS 处理器以及 ConsumeKafka_0_10 但它会生成小文件在 HDFS 中,所以我使用 Merge Content 处理器在推送文件之前合并记录。 如果配置需要更改,请提供帮助这适用于少量消息,但当涉及到具有大量数据的主题时,将为每条记录写入一个文件。

谢谢!!

最小条目数设置为 1,这意味着它可以有 1 到最大条目数之间的任何值。试着把它调高一些,比如 100k。