从检查点重新启动后,Spark 流选项卡消失

Spark streaming tab disappears after restarting from checkpoint

我在一个检查点到 S3 的集群 (Spark 1.6) 上有一个 Spark Streaming 作业 运行。当我最初开始工作时,我可以看到 "Streaming" 选项卡。但是,当我从检查点重新启动作业时,“流式传输”选项卡消失了。该作业仍作为流作业运行,我看到批次以配置的批次间隔出现。见下文。

如果我清除了检查点数据,该选项卡又回来了。我怀疑从检查点重新启动时,流媒体选项卡未正确注册。

我看了Spark Streaming code。当从检查点反序列化应用程序状态时,是否可能不调用此流程?

有人知道如何解决这个问题吗?

If I clear out the checkpoint data, the tab comes back. I suspect that the Streaming tab is not registered correctly while restarting from a checkpoint.

它已被调用,但直到它完成从 S3 检查点位置加载所有数据后,流选项卡才会出现。如果您的血统很长,加载可能需要一些时间。从检查点恢复所有数据后,您将看到流式传输选项卡。