是否可以在 Airflow 中执行更快的回填?

Is it possible to perform faster backfill in Airflow?

我对此进行了很多搜索,但找不到有关它的任何实质性信息。我的问题是我有一个 DAG,应该回填 2017 年 3 月的数据。

所以我输入了 start_date: '01-03-2017'。我还每天提供 schedule_interval。现在,我知道我的 DAG 将从 2017 年 3 月开始 运行,并具有给定的时间表。但如果我的狗每天都按计划进行,则需要2年多才能到达当前日期

我不能等2年才能得到过去的数据。我希望我的 DAG 尽快完成回填,以便我的 DAG 捕捉到当前时间并开始每天进行调度。我怎样才能做到这一点?我可以提供 max_active_runs 给一些高数字同时安排多个 DAGRuns 吗?

在回填的情况下,您的 DAG 不会 运行 仅根据时间表。它将执行过去的日常任务,但它们将 运行 并发,直到它完成所有回填任务。只有每个 运行 的执行日期将是过去的日期。一旦到达当前日期,它将按照计划继续进行。