HDFS 块大小和网络复制流量之间有什么关系?
What is the Relationship between HDFS Block Size and Network Replication Traffic?
相对于我们认为通过 OpenTSDB 写入的数据量,我们的 HBase 集群有大量的网络流量。
到 OpenTSDB 的中继字节:
字节的网络吞吐量(Y 轴是 SI 单位,因此不是 base2):
我们用的是Cloudera,所以块是128MB,改成64MB会不会减少网络复制流量?还有其他后果需要考虑吗?
要明确回答降低块大小会减少复制流量的问题,答案是不会。
HDFS 客户端不会一次写入整个块的数据 - 它们一次将写入流化为 64k-128k 字节的小校验和数据包(可配置),构建到 DataNode 的整个块管道。
降低块大小只会产生一种效果:更多数据节点上的更多块。它不会改变传输速率和总网络利用率,这完全由目标数据写入大小和复制因子驱动,而不是由 HDFS 逻辑块大小属性驱动。
相对于我们认为通过 OpenTSDB 写入的数据量,我们的 HBase 集群有大量的网络流量。
到 OpenTSDB 的中继字节:
字节的网络吞吐量(Y 轴是 SI 单位,因此不是 base2):
我们用的是Cloudera,所以块是128MB,改成64MB会不会减少网络复制流量?还有其他后果需要考虑吗?
要明确回答降低块大小会减少复制流量的问题,答案是不会。
HDFS 客户端不会一次写入整个块的数据 - 它们一次将写入流化为 64k-128k 字节的小校验和数据包(可配置),构建到 DataNode 的整个块管道。
降低块大小只会产生一种效果:更多数据节点上的更多块。它不会改变传输速率和总网络利用率,这完全由目标数据写入大小和复制因子驱动,而不是由 HDFS 逻辑块大小属性驱动。