如何防止 CDH 中的 Hue 在重启时清除作业历史记录?

How to prevent Hue in CDH from clearing job history on restart?

我已经安装了 CDH 5.5.1 HueHadoopSparkHiveOozieYarnZooKeeper

当我 运行 一个 Spark 作业或 MapReduce 作业时,Hue 在作业历史记录中显示一个问题。问题是当我重新启动 CDH 服务(不是物理节点)时,它会删除重新启动之前的所有作业历史记录。

在 Hadoop 上,我怀疑有几个文件包含有关任务的信息,并且可能是保存作业信息的文件。他们的 hadoop 路径是:

我在Cloudera Manager配置页、Hue配置页和一些配置文件中找过,都没有找到。我不知道如何防止这种删除。我错过了什么吗?

如果您真的只需要查看 Hadoop 集群上的作业历史记录,YARN 历史服务器应该具有集群上所有 YARN 作业的历史记录运行。

Hue 有一张针对您描述的问题的 JIRA 票证,标题为 "Job browser should talk to the YARN history server to display old jobs":https://issues.cloudera.org/browse/HUE-2558。基本上,Hue 需要与 YARN 历史服务器(而不仅仅是资源管理器)对话以获取您正在寻找的信息。

好消息是该任务似乎已经完成并包含在 2017 年 5 月 11 日发布的 Hue 4.0 中。坏消息是 Cloudera 尚未发布包含该版本 Hue 的版本。