Spark 流作业调度控制执行？

Question

我有一个问题，在 spark streaming 中我只关心最后 1 分钟，所以我相应地编写了我的代码

现在由于各种资源，我预定的批处理有时会像这样堆积起来

    INFO JobScheduler: Added jobs for time 1470046240000 ms
    INFO JobScheduler: Added jobs for time 1470046241000 ms
    INFO JobScheduler: Added jobs for time 1470046242000 ms
    INFO JobScheduler: Added jobs for time 1470046243000 ms

我的问题是，如果时间超过 1 分钟，我该如何删除计划作业以便它们可以在执行前被丢弃

Answer 1

为了跳过具有大量输入数据的批次，然后设置阈值计数，如果您的输入 RDD 计数大于阈值，则什么也不做，否则执行您想要的所有操作（如转换、操作）。

我使用这种方法来跳过空批次。

Spark 流作业调度控制执行？

Spark streaming job scheduling controlling execution?

scala

apache-spark

spark-streaming