如何让 Apache Zeppelin notebook 运行 在第一份工作中更快

How to make Apache Zeppelin notebook run faster on the first job

您可以参考快照,当您第一次运行 Apache Zeppelin notebook 时,需要很长时间才能完成作业(大约超过 1 分钟)。

有什么优化方法可以减少运行宁时间吗?

简答:

你无法让第一份工作变得更快。

更长的答案:

作业处理并不慢,但初始化 SparkSessionSparkContext 在另一个是。

Zeppelin 所做的是在您调用的第一个作业上启动 Spark 会话。简单示例:

做一个简单的赋值也花了一分钟。

因此,除非 spark 本身变得更快启动,否则实际上您无能为力使其更快。

zeppelin 正在请求解释您的命令所需的资源。 如果是 yarn-client 模式,它还需要等到 yarn 接受你的申请。 所以,对于你的第一本笔记本来说,它超过了 1 分钟..

最后,我发现在两种情况下你可以让它更快,在 spark 版本 < 1.6 中并且在集群中有完整的资源。