远程气流 Dags
Remote Airflow Dags
我计划在云存储上部署 airflow dags 并提供与 GCS 的连接并从 Google Compute Engine 实例上的 Airflow 运行 访问这些 dags。
从文档中可以清楚地看出远程日志记录是可能的。
我想将 Airflow 的存储(日志和 Dags)部分完全保留在 GCS 上,因为我必须管理这些文件以避免在部署后修改 VM 上的文件。
此外,随着日志的增加,它开始在云 VM 的磁盘上占用大量 space。
是否可以在 GCS 上存储 dag。如果是这样,我该如何实现。
提前致谢。
Google Cloud Platform 似乎广泛集成了 airflow 用于数据处理和存储。
有一个官方 Google Cloud Blog documentation article which explains how to connect Airflow with BigQuery. Additionally, there is also an additional section for Google Cloud Platform integration in the official Airflow documentation ,可能会解释完整集成的其他细节。
总而言之,BigQuery 似乎是适合您的产品,它是一种专门的 Google 工具,可以管理大量数据库,并使它们易于使用外部工具和其他 google 产品(如虚拟机)。
在 GCS 中实现保存 DAG 的一种方法是将它们作为 JSON 存储在存储桶中。这样,您就可以避免将文件存储在 VM 中。
显示如何执行此操作的示例在另一个 Whosebug post
我来晚了,但您可以将存储桶作为文件系统安装到您的 VM(或任何 Linux 系统)。
根据我的经验,与实际文件系统相比,它可能有点慢,但如果我理解正确,这应该适合你。
可在 documentation.
中找到有关使此工作正常进行的详细信息
我知道这是一个老问题,但对于任何感兴趣的人,您现在可以通过 Google Cloud Composer 在 GCP 上使用完全托管的 Airflow。
我计划在云存储上部署 airflow dags 并提供与 GCS 的连接并从 Google Compute Engine 实例上的 Airflow 运行 访问这些 dags。
从文档中可以清楚地看出远程日志记录是可能的。
我想将 Airflow 的存储(日志和 Dags)部分完全保留在 GCS 上,因为我必须管理这些文件以避免在部署后修改 VM 上的文件。
此外,随着日志的增加,它开始在云 VM 的磁盘上占用大量 space。
是否可以在 GCS 上存储 dag。如果是这样,我该如何实现。
提前致谢。
Google Cloud Platform 似乎广泛集成了 airflow 用于数据处理和存储。
有一个官方 Google Cloud Blog documentation article which explains how to connect Airflow with BigQuery. Additionally, there is also an additional section for Google Cloud Platform integration in the official Airflow documentation ,可能会解释完整集成的其他细节。
总而言之,BigQuery 似乎是适合您的产品,它是一种专门的 Google 工具,可以管理大量数据库,并使它们易于使用外部工具和其他 google 产品(如虚拟机)。
在 GCS 中实现保存 DAG 的一种方法是将它们作为 JSON 存储在存储桶中。这样,您就可以避免将文件存储在 VM 中。
显示如何执行此操作的示例在另一个 Whosebug post
我来晚了,但您可以将存储桶作为文件系统安装到您的 VM(或任何 Linux 系统)。
根据我的经验,与实际文件系统相比,它可能有点慢,但如果我理解正确,这应该适合你。
可在 documentation.
中找到有关使此工作正常进行的详细信息我知道这是一个老问题,但对于任何感兴趣的人,您现在可以通过 Google Cloud Composer 在 GCP 上使用完全托管的 Airflow。