google composer 环境中的环境健康是什么意思

What does the Environment health in google composer environment mean

在 google composer 环境中有选项卡 - 监控,其中有 环境概览 部分,第一个指标是 环境健康 .

我已在 google 文档中阅读此内容:

Environment health A timeline showing the health of the Composer deployment. Green status doesn't mean that all Airflow components were operational and DAGs were able to be run--it only reflects the status of the Composer deployment.

但不确定环境出了什么问题以及发生问题时如何修复。 尽管我的 环境健康状况 显示不健康,但所有其他指标都是健康的,甚至气流 dags 也是 运行。那么你能解释一下环境健康上的这种不健康状态是什么意思吗?对气流数据管道有什么影响以及如何修复它。

环境健康时间线表明您的环境是否能够运行一个非常简单的探测器 DAG (airflow_monitoring),它预装在所有 Cloud Composer 环境中。如果 DAG 运行 成功并且指标收集器正确读取了它的状态,那么环境的运行状况将显示为绿色,否则将显示为红色。

一般来说,时间线可以很好地指示您的环境是否能够 运行 任务实例。但是,如果它显示为红色并且您没有发现您的环境存在任何其他问题,则可能是您的环境存在配置错误或更大的问题。

解决此问题的一些建议是确保 airflow_monitoring DAG 未暂停,并检查 Cloud Logging 中的 airflow-monitoring 日志类别。如果 airflow_monitoring DAG 运行s 没有成功完成,那么建议您将其作为正常的 Airflow 问题进行故障排除,以便在查看 Composer 特定组件之前解除它。

环境健康指标取决于名为 airflow_monitoring 的 Composer 管理的 DAG,该 DAG 由 airflow-monitoring pod 定期触发。如果 DAG 未被删除且未在 Airflow UI 中报告故障,请检查 airflow-monitoring 日志以查看是否存在与读取 DAG 的 运行 状态相关的任何问题。

要检查环境的健康状况,您可以使用以下健康状况 status metric: composer.googleapis.com/environment/healthy Cloud Composer 运行s 一个名为 airflow_monitoring 的活动 DAG,每 5 分钟报告一次环境健康状况,如下所示:

当 DAG 运行 成功完成时,健康状态为 True。如果 DAG 运行 失败,则健康状态为 False。如果 DAG 运行 没有完成,Cloud Composer 每 5 分钟轮询一次 DAG 的状态,如果发生一小时超时则报告 False。 liveness DAG 存储在 dags/ 文件夹中,并在 Airflow web UI 中可见。 liveness DAG 的频率和内容是不可变的,不应修改,因为更改不会持续存在。

您可以通过 [1] 了解更多详情。

[1] https://cloud.google.com/composer/docs/how-to/managing/monitoring-environments#environment