为什么我的 hdfs 容量不保持不变?

Why is my hdfs capacity not remainng constant?

我是 运行 dataproc 上的 pyspark 作业,我的 hdfs 总容量不会保持不变。

正如您在第一个图表中看到的那样,尽管已使用的 hdfs 容量很小,但剩余的 hdfs 容量正在下降。为什么 remaining + used 不是常量?

监控图中的“used”其实是“DFS used”,并没有显示“non-DFS used”。如果您在组件网关 Web 界面中打开 HDFS UI,您应该能够看到如下内容:

Configured Capacity  :   232.5 GB
DFS Used     :   38.52 GB
Non DFS Used     :   45.35 GB
DFS Remaining    :   148.62 GB
DFS Used%    :   16.57 %
DFS Remaining%   :   63.92 %

公式为:

DFS 剩余 = 总磁盘 Space - 最大值(保留 Space,Non-DFS 使用)- DFS 使用

已配置容量 = 总磁盘容量 Space - 保留容量 Space

保留 Space 由 dfs.datanode.du.reserved 1 property which defaults to 0. So in your case it is the non-DFS used that gets deducted. Here is a similar question 控制。