如何改善 Cloud Composer 的健康状况？

Question

我最近使用 cloud composer 构建了 120 个 dag。他们都工作了一段时间。

他们都差不多。每个都使用 python 运算符。每个人都对 google 搜索控制台进行了 API 次调用。每个人都将 7-9k 行 GSC 数据收集到一个 pandas 数据框中，然后将其上传到 GCS 存储桶和 BigQuery（分区和集群）。

有时我会因为 GSC 身份验证令牌已被撤销而有一天全部失败，但没问题，创建新凭据，上传并继续。这种情况持续了几个月。现在没有运行。

从一开始，cloud composer health偶尔会有红点，现在health每天都是静态的红色。

我找到了有关如何检查运行状况的文档，但没有找到有关如何找出运行状况如此差的原因并进行修复的文档。

谁能给我指出正确的方向？

Answer 1

环境健康指标取决于名为 airflow_monitoring 的 Composer 管理的 DAG，该 DAG 由 airflow-monitoring pod 定期触发。如果这个 DAG 没有被删除，你可以检查 airflow-monitoring 日志，看看是否有任何与读取 DAG 的运行状态相关的问题。因此，您还可以尝试使用以下过滤器解决 Cloud Logging 中的错误：

resource.type="cloud_composer_environment"
severity=ERROR

活检失败可能是以下原因：

任何资源限制（内存和CPU）
作曲家版本的已知问题。请检查作曲家发布
备注任何已知问题。
Airflow 配置为 core:default_timezone（如果你有配置 core: default_timezone 气流配置作曲家环境健康将显示为不健康。这是一个众所周知的问题，作曲家产品团队正在努力解决。）

有关 Cloud Composer 环境健康指标的信息，请参阅此 documentation。

Answer 2

我很幸运昨天和 Google 的人交谈，他说我需要做的是重新创建我的云作曲家环境，因为我没有足够的 CPU。他建议再创作时灵活选择。

如何改善 Cloud Composer 的健康状况？

How to improve Cloud composer health?

directed-acyclic-graphs

airflow

google-cloud-composer