Apache Airflow 集群的最低硬件要求

Minimum hardware requirements for Apache Airflow cluster

设置 Apache Airflow 集群的最低硬件要求是什么。

例如。集群中不同类型节点的 RAM、CPU、磁盘等。

我在伪分布式模式下使用非常小的实例没有遇到任何问题(32 个并行工作器;Postgres 后端):

  • 内存 4096 MB
  • CPU 1000 兆赫
  • VCPUs 2 VCPUs
  • 磁盘 40 GB

如果你想要分布式模式,如果你保持它的同质性,你应该会更好。无论如何,气流不应该真正做繁重的工作;将工作负载推给其他事物(Spark、EMR、BigQuery 等)。

您还必须 运行 某种消息队列,例如 RabbitMQ。我认为他们也采用 Redis。但是,这并不会真正显着影响您调整大小的方式。

我们运行使用以下配置

在 AWS 中调整气流

t2.small --> 气流调度器和网络服务器

db.t2.small --> 用于 Metastore 的 postgres

airflow.cfg中的parallelism参数设置为10,大约有10个用户访问airflowUI

我们从 airflow 所做的一切就是通过 ssh 连接到其他实例,运行 来自那里的代码