归档传入的小型 hdfs 文件

Archiving incoming small hdfs files

我每天都有小文件进入 hdfs。我打算使用 hadoop 归档 (HAR),但我如何归档这些每天进入 hdfs 的小文件。例如:我今天可能会收到 5 个文件,我需要将它们存档,明天如果我再收到 5 个文件,我需要将其附加到前几天的存档中。

您不能将文件添加到现有的 HAR 文件中。您需要 un-archive 和 re-archive 或合并文件几天,然后创建存档文件。