如何改善 Cloud Composer 的健康状况?

How to improve Cloud composer health?

我最近使用 cloud composer 构建了 120 个 dag。他们都工作了一段时间

他们都差不多。每个都使用 python 运算符。每个人都对 google 搜索控制台进行了 API 次调用。每个人都将 7-9k 行 GSC 数据收集到一个 pandas 数据框中,然后将其上传到 GCS 存储桶和 BigQuery(分区和集群)。

有时我会因为 GSC 身份验证令牌已被撤销而有一天全部失败,但没问题,创建新凭据,上传并继续。这种情况持续了几个月。现在没有运行。

从一开始,cloud composer health偶尔会有红点,现​​在health每天都是静态的红色。

我找到了有关如何检查运行状况的文档,但没有找到有关如何找出运行状况如此差的原因并进行修复的文档。

谁能给我指出正确的方向?

环境健康指标取决于名为 airflow_monitoring 的 Composer 管理的 DAG,该 DAG 由 airflow-monitoring pod 定期触发。如果这个 DAG 没有被删除,你可以检查 airflow-monitoring 日志,看看是否有任何与读取 DAG 的 运行 状态相关的问题。因此,您还可以尝试使用以下过滤器解决 Cloud Logging 中的错误:

resource.type="cloud_composer_environment"
severity=ERROR

活检失败可能是以下原因:

  • 任何资源限制(内存和CPU)
  • 作曲家版本的已知问题。请检查作曲家 发布
    备注
    任何 已知问题。
  • Airflow 配置为 core:default_timezone(如果你有 配置 core: default_timezone 气流配置作曲家 环境健康将显示为不健康。这是一个众所周知的 问题,作曲家产品团队正在努力解决。)

有关 Cloud Composer 环境健康指标的信息,请参阅此 documentation

我很幸运昨天和 Google 的人交谈,他说我需要做的是重新创建我的云作曲家环境,因为我没有足够的 CPU。他建议再创作时灵活选择。