执行多个按延迟顺序执行的映射作业

Executing multiple mapred jobs that are executed in a sequence with a delay

我想知道是否可以 execute/or 提交一个 mapred 作业,以便在之前作业的给定延迟后在 hadoop 集群中执行。为了解释清楚,作业是按顺序提交的,并且作业是在先前的映射作业完成执行之前提交的,假设作业每 30 毫秒到 1 秒向集群提交一次。

您可能想使用 Oozie 它是定制的。大多数 hadoop 发行版 (HDP/CDP) 通常已经在集群上安装了它。它基本上为 hadoop 进行工作流管理。 (即运行这份工作,然后是那份工作,然后是那份工作。)

(可以像 cron job but made to launch on the cluster 一样 运行)