Apache AirFlow 如何实现可扩展性?

How Apache AirFlow achieves scalability?

我看到,Airflow 中的许多操作员在将数据上传到目标系统之前将数据存储在本地。这意味着工作节点正在做大量的工作,以防数据量很大。

Airbnb(开源 Airflow 的公司)在 2015 年表示他们在 Airflow 集群中只有 6 个节点服务于 5000 个工作岗位。

我是不是漏掉了什么?

Apache Airflow 的主要用途是任务调度和监控。它不是设计为通用数据处理引擎。与其将其视为 Oozie 的替代品,不如将其视为 Apache Spark 或 Apache Hive。

虽然 Airflow 可以扩展它的工作人员(使用 Mesos、RabbitMQ / Celery),但繁重的工作仍然由分析系统执行。因此,例如 Airflow 可以管理您的 Spark 作业和 Druid 查询,处理变更等。