如何改善 Cloud Composer 的健康状况?
How to improve Cloud composer health?
我最近使用 cloud composer 构建了 120 个 dag。他们都工作了一段时间。
他们都差不多。每个都使用 python 运算符。每个人都对 google 搜索控制台进行了 API 次调用。每个人都将 7-9k 行 GSC 数据收集到一个 pandas 数据框中,然后将其上传到 GCS 存储桶和 BigQuery(分区和集群)。
有时我会因为 GSC 身份验证令牌已被撤销而有一天全部失败,但没问题,创建新凭据,上传并继续。这种情况持续了几个月。现在没有运行。
从一开始,cloud composer health偶尔会有红点,现在health每天都是静态的红色。
我找到了有关如何检查运行状况的文档,但没有找到有关如何找出运行状况如此差的原因并进行修复的文档。
谁能给我指出正确的方向?
环境健康指标取决于名为 airflow_monitoring
的 Composer 管理的 DAG,该 DAG 由 airflow-monitoring pod 定期触发。如果这个 DAG 没有被删除,你可以检查 airflow-monitoring 日志,看看是否有任何与读取 DAG 的 运行 状态相关的问题。因此,您还可以尝试使用以下过滤器解决 Cloud Logging 中的错误:
resource.type="cloud_composer_environment"
severity=ERROR
活检失败可能是以下原因:
- 任何资源限制(内存和CPU)
- 作曲家版本的已知问题。请检查作曲家
发布
备注 任何
已知问题。
- Airflow 配置为
core:default_timezone
(如果你有
配置 core: default_timezone
气流配置作曲家
环境健康将显示为不健康。这是一个众所周知的
问题,作曲家产品团队正在努力解决。)
有关 Cloud Composer 环境健康指标的信息,请参阅此 documentation。
我很幸运昨天和 Google 的人交谈,他说我需要做的是重新创建我的云作曲家环境,因为我没有足够的 CPU。他建议再创作时灵活选择。
我最近使用 cloud composer 构建了 120 个 dag。他们都工作了一段时间。
他们都差不多。每个都使用 python 运算符。每个人都对 google 搜索控制台进行了 API 次调用。每个人都将 7-9k 行 GSC 数据收集到一个 pandas 数据框中,然后将其上传到 GCS 存储桶和 BigQuery(分区和集群)。
有时我会因为 GSC 身份验证令牌已被撤销而有一天全部失败,但没问题,创建新凭据,上传并继续。这种情况持续了几个月。现在没有运行。
从一开始,cloud composer health偶尔会有红点,现在health每天都是静态的红色。
我找到了有关如何检查运行状况的文档,但没有找到有关如何找出运行状况如此差的原因并进行修复的文档。
谁能给我指出正确的方向?
环境健康指标取决于名为 airflow_monitoring
的 Composer 管理的 DAG,该 DAG 由 airflow-monitoring pod 定期触发。如果这个 DAG 没有被删除,你可以检查 airflow-monitoring 日志,看看是否有任何与读取 DAG 的 运行 状态相关的问题。因此,您还可以尝试使用以下过滤器解决 Cloud Logging 中的错误:
resource.type="cloud_composer_environment"
severity=ERROR
活检失败可能是以下原因:
- 任何资源限制(内存和CPU)
- 作曲家版本的已知问题。请检查作曲家
发布
备注 任何 已知问题。 - Airflow 配置为
core:default_timezone
(如果你有 配置core: default_timezone
气流配置作曲家 环境健康将显示为不健康。这是一个众所周知的 问题,作曲家产品团队正在努力解决。)
有关 Cloud Composer 环境健康指标的信息,请参阅此 documentation。
我很幸运昨天和 Google 的人交谈,他说我需要做的是重新创建我的云作曲家环境,因为我没有足够的 CPU。他建议再创作时灵活选择。