生产中的 MWAA - 任务因未知原因排队

MWAA in productions - tasks queued for unknown reasons

有人在生产中使用 MWAA 吗?

我们目前有大约 500 个 DAG 运行ning,我们看到一个意外的行为,任务由于未知原因处于“排队”状态。

Task is in the 'queued' state which is not a valid state for execution. The task must be cleared in order to be run.

它是随机发生的,完全可以 运行 一天,然后一些任务将保持排队状态。任务将永远保持这种状态,除非我们手动将它们标记为失败。

即使池为空,DAG 运行 也可以保持这种“排队”状态,我看不出有任何理由可以解释这一点。

恰好 ~5% 的任务与所有其他任务 运行 顺利完成。

你遇到过这种行为吗?

这在 MWAA 中也发生在我身上。它只是在我升级到 Airflow 版本 2.2.2 后才开始发生。对我有用的解决方案是通过网络 UI 添加到 A​​irflow 配置选项 以下选项:

Configuration option: celery.pool
Custom value: solo