HDFS 连接操作:是否会导致寻道时间增加?
HDFS concat operation: Does it lead to increased seek time?
我试图了解 HDFS 如何实现 concat 操作并深入到 code.
的以下部分
从这个实现来看,在我看来,concat 只是对目标文件的 inode 的元操作,实际块没有移动。我在想这是否会导致碎片化 + 增加寻道时间,因为不同的块会位于磁盘上的不同位置(考虑磁盘)。这个假设是否正确?如果是,我们可以避免这种情况吗?
经过几次实验,我找到了自己问题的答案。在非常频繁的文件连接操作(每分钟约 1k)之后,数据节点开始抱怨一天左右的块太多,这让我相信这确实会导致碎片化和磁盘上块数量的增加。我使用的解决方案是编写一个单独的作业,将这些文件连接(在我的情况下压缩)到一个可拆分的存档中(注意 gzip 不可拆分!)。
我试图了解 HDFS 如何实现 concat 操作并深入到 code.
的以下部分从这个实现来看,在我看来,concat 只是对目标文件的 inode 的元操作,实际块没有移动。我在想这是否会导致碎片化 + 增加寻道时间,因为不同的块会位于磁盘上的不同位置(考虑磁盘)。这个假设是否正确?如果是,我们可以避免这种情况吗?
经过几次实验,我找到了自己问题的答案。在非常频繁的文件连接操作(每分钟约 1k)之后,数据节点开始抱怨一天左右的块太多,这让我相信这确实会导致碎片化和磁盘上块数量的增加。我使用的解决方案是编写一个单独的作业,将这些文件连接(在我的情况下压缩)到一个可拆分的存档中(注意 gzip 不可拆分!)。