HDFS 块大小和网络复制流量之间有什么关系?

What is the Relationship between HDFS Block Size and Network Replication Traffic?

相对于我们认为通过 OpenTSDB 写入的数据量,我们的 HBase 集群有大量的网络流量。

到 OpenTSDB 的中继字节:

字节的网络吞吐量(Y 轴是 SI 单位,因此不是 base2):

我们用的是Cloudera,所以块是128MB,改成64MB会不会减少网络复制流量?还有其他后果需要考虑吗?

要明确回答降低块大小会减少复制流量的问题,答案是不会

HDFS 客户端不会一次写入整个块的数据 - 它们一次将写入流化为 64k-128k 字节的小校验和数据包(可配置),构建到 DataNode 的整个块管道。

降低块大小只会产生一种效果:更多数据节点上的更多块。它不会改变传输速率和总网络利用率,这完全由目标数据写入大小和复制因子驱动​​,而不是由 HDFS 逻辑块大小属性驱动。