Spark 流作业调度控制执行?
Spark streaming job scheduling controlling execution?
我有一个问题,在 spark streaming 中我只关心最后 1 分钟,所以我相应地编写了我的代码
现在由于各种资源,我预定的批处理有时会像这样堆积起来
INFO JobScheduler: Added jobs for time 1470046240000 ms
INFO JobScheduler: Added jobs for time 1470046241000 ms
INFO JobScheduler: Added jobs for time 1470046242000 ms
INFO JobScheduler: Added jobs for time 1470046243000 ms
我的问题是,如果时间超过 1 分钟,我该如何删除计划作业
以便它们可以在执行前被丢弃
为了跳过具有大量输入数据的批次,然后设置阈值计数,如果您的输入 RDD 计数大于阈值,则什么也不做,否则执行您想要的所有操作(如转换、操作)。
我使用这种方法来跳过空批次。
我有一个问题,在 spark streaming 中我只关心最后 1 分钟,所以我相应地编写了我的代码
现在由于各种资源,我预定的批处理有时会像这样堆积起来
INFO JobScheduler: Added jobs for time 1470046240000 ms
INFO JobScheduler: Added jobs for time 1470046241000 ms
INFO JobScheduler: Added jobs for time 1470046242000 ms
INFO JobScheduler: Added jobs for time 1470046243000 ms
我的问题是,如果时间超过 1 分钟,我该如何删除计划作业 以便它们可以在执行前被丢弃
为了跳过具有大量输入数据的批次,然后设置阈值计数,如果您的输入 RDD 计数大于阈值,则什么也不做,否则执行您想要的所有操作(如转换、操作)。
我使用这种方法来跳过空批次。