Spark 历史服务器未显示 'complete' 个应用程序

Spark history server is not showing 'complete' applications

我正在尝试对缓慢的 运行 DSX 作业进行性能调整。

我已经从 Bluemix 上的底层 spark 服务导航到 spark 历史服务器(按照这个)。

我执行了一个包含一些基本 spark 代码的单元格:

In [1]:
x = sc.parallelize(range(1, 1000000))
x.collect()

Out[1]:
[1,
 2,
 3,
 4,
 5,
 ...

然后我在浏览器中刷新了 Job History Server 页面,但是,spark history 服务器没有显示任何完整的应用程序:

如何找到 'complete' 应用程序?


更新

我指的 spark 服务是 IBM 在 Bluemix 上的托管 spark 服务,所以我无法控制配置。

更新 2

日期似乎已损坏,这就是我看不到已完成作业的原因:

您是否将您的 Spark 集群配置为具有事件日志?像这样:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs

notebook 上下文启动一个 Spark 应用程序,它将在您的作业完成后保持 运行 20 分钟。当您在此期间提交另一份工作时,它将使用相同的应用程序并出现在相同的历史条目中。因此,您无法在历史服务器中跟踪 job/activity 笔记本或交互式 API 内核的完成情况。

Spark activity 在内核日志中生成输出,也许可以提供您正在寻找的信息。

我已经与 Spark 服务工程团队讨论了这个问题 - 这是一个已知问题。