来自 Netflix 的 Metaflow 与 Apache Airflow

Metaflow from Netflix vs Apache Airflow

我对 Apache Airflow 和 Metaflow 之间的区别有疑问 (https://docs.metaflow.org/)。据我了解,Apache airflow 只是一个运行任务的作业调度程序。 Netflix 的 Metaflow 是一个数据流库,它以 DAG 的形式创建机器学习管道(数据流可用)。基本上这意味着 Metaflow 可以在 Apache Airflow 上执行?

我的理解对吗? 如果是,是否可以将 Metaflow DAG 转换为 Apache Airflow DAG?

老实说,我还没有使用过 Metaflow,感谢您向我介绍它!你可以在 Youtube 上找到一个不错的 introduction video

Airflow 是一个用于创建预定管道的框架。管道是一组任务,它们相互链接,表示有向无环图。可以安排管道,您可以告诉它应该多久或什么时候应该 运行,您可以告诉它过去什么时候应该 运行 以及它应该在什么时间段 backfill. You can run the whole Airflow as one single docker container or you can have multi-node cluster, it has bunch of already existing operators to integrate with 3rd party services. I recommend to look into Airflow Architecture and concepts.

Metaflow 看起来很相似,但专为数据科学家创建。我在这里可能是错的,但看看 Metaflow Basics 看起来我可以用同样的方式创建一个类似于 Airflow 的预定管道。

我会查看您想集成的特定工具,以及两者中哪一个集成得更好。如前所述,Airflow 已经制作了很多 connectors and operators, as well as, powerful scheduler with backfill and Jinja template language to design your DB queries for enter link description here.

希望对您有所帮助。 Here is also some nice article 具有特征比较。