及时调度 spark 作业

Scheduling spark jobs on a timely basis

这是在 daily/weekly 基础上安排 Spark 作业的推荐工具。 1)乌兹 2)路易吉 3) 阿兹卡班 4) 时间 5) 气流

提前致谢。

从这里更新我之前的回答:

  • Airflow:先试试这个。 体面的 UI,Python-ish 作业定义,semi-accessible for non-programmers,依赖声明语法很奇怪。
    • Airflow 内置了对 事实 作业计划作业通常需要重新运行 and/or 回填的支持。确保构建管道来支持这一点。
  • Azkaban:不错 UI,相对简单,non-programmers 可以访问。在 LinkedIn 拥有悠久的历史。
  • Luigi:好的 UI,工作流程是纯粹的 Python,需要扎实地掌握 Python 编码和面向对象的概念,因此不适合 non-programmers。
  • Oozie:疯狂的 XML 基于工作定义。这里是龙。 ;-)
  • 时间:¯\_(ツ)_/¯

理念:

更简单的管道优于复杂的管道:更容易创建、更容易理解(尤其是当您没有创建时)并且更容易 debug/fix。

当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。

如果你能使它幂等(运行它再次产生相同的结果)那就更好了。