如何删除 /hadoop/hdfs/journal/hdfsha/current/ 下的非常大的文件

Question

在我们的 HDP 集群中 - 版本 2.6.5，带有 ambari 平台

我们注意到 /hadoop/hdfs/journal/hdfsha/current/ 文件夹包括巨大的文件和超过 1000 个文件

-rw-r--r--. 1 hdfs hadoop 494690334 Dec 28 11:37 edits_0000000017251672645-0000000017253719335
-rw-r--r--. 1 hdfs hadoop 524892007 Dec 28 12:37 edits_0000000017253719336-0000000017255810613
-rw-r--r--. 1 hdfs hadoop 509365350 Dec 28 14:17 edits_0000000017255810614-0000000017258005682
-rw-r--r--. 1 hdfs hadoop 526756290 Dec 28 15:07 edits_0000000017258005683-0000000017260117992

为了尽量减少日志编辑日志，我们可以使用以下内容作为 HDFS 的一部分 (hdfs-site.xml)

我们不确定-dfs.namenode.num.extra.edits.retained的意思是不是只保留100个文件

如果以下配置可以帮助清除

中的额外日志文件，请指教

dfs.namenode.num.extra.edits.retained=100
dfs.namenode.max.extra.edits.segments.retained=1
dfs.namenode.num.checkpoints.retained=1

参考 - https://www.ibm.com/support/pages/how-remove-very-large-files-under-hadoophdfsnamecurrent-biginsights-30-save-disk-space

Answer 1

要清除期刊编辑消耗的 space，您的方向是正确的。但是，这些值太少，如果出现问题，您可能会丢失数据。

dfs.namenode.num.extra.edits.retained 和 dfs.namenode.max.extra.edits.segments.retained 的默认值分别设置为 1000000 和 10000。

我建议以下值：-

dfs.namenode.num.extra.edits.retained=100000
dfs.namenode.max.extra.edits.segments.retained=100
dfs.namenode.num.checkpoints.retained=2

您可以找到所有这些参数的详细信息here，值可以是任何值，取决于您必须选择的环境。

Answer 2

有同样的问题，编辑开始在 NN 和日志节点中累积。原来是standBy NN死了。阅读文档，发现编辑的合并和清理是standBy NN的职责。
在非 HA 模式下，是 SecondaryNN 执行此操作。
所以请确保您的 standBy/Secondary NN 是运行正确的。

如何删除 /hadoop/hdfs/journal/hdfsha/current/ 下的非常大的文件

How to remove the very large files under /hadoop/hdfs/journal/hdfsha/current/

hadoop

hdfs

namenode

hdp