Apache Airflow 集群的最低硬件要求
Minimum hardware requirements for Apache Airflow cluster
设置 Apache Airflow 集群的最低硬件要求是什么。
例如。集群中不同类型节点的 RAM、CPU、磁盘等。
我在伪分布式模式下使用非常小的实例没有遇到任何问题(32 个并行工作器;Postgres 后端):
- 内存 4096 MB
- CPU 1000 兆赫
- VCPUs 2 VCPUs
- 磁盘 40 GB
如果你想要分布式模式,如果你保持它的同质性,你应该会更好。无论如何,气流不应该真正做繁重的工作;将工作负载推给其他事物(Spark、EMR、BigQuery 等)。
您还必须 运行 某种消息队列,例如 RabbitMQ。我认为他们也采用 Redis。但是,这并不会真正显着影响您调整大小的方式。
我们运行使用以下配置
在 AWS 中调整气流
t2.small --> 气流调度器和网络服务器
db.t2.small --> 用于 Metastore 的 postgres
airflow.cfg中的parallelism参数设置为10,大约有10个用户访问airflowUI
我们从 airflow 所做的一切就是通过 ssh 连接到其他实例,运行 来自那里的代码
设置 Apache Airflow 集群的最低硬件要求是什么。
例如。集群中不同类型节点的 RAM、CPU、磁盘等。
我在伪分布式模式下使用非常小的实例没有遇到任何问题(32 个并行工作器;Postgres 后端):
- 内存 4096 MB
- CPU 1000 兆赫
- VCPUs 2 VCPUs
- 磁盘 40 GB
如果你想要分布式模式,如果你保持它的同质性,你应该会更好。无论如何,气流不应该真正做繁重的工作;将工作负载推给其他事物(Spark、EMR、BigQuery 等)。
您还必须 运行 某种消息队列,例如 RabbitMQ。我认为他们也采用 Redis。但是,这并不会真正显着影响您调整大小的方式。
我们运行使用以下配置
在 AWS 中调整气流t2.small --> 气流调度器和网络服务器
db.t2.small --> 用于 Metastore 的 postgres
airflow.cfg中的parallelism参数设置为10,大约有10个用户访问airflowUI
我们从 airflow 所做的一切就是通过 ssh 连接到其他实例,运行 来自那里的代码