如何使用 stackdriver 为 dataproc 集群创建 idle/uptime 指标

how to create idle/uptime metric for dataproc cluster with stackdriver

我想为我正在 运行 的所有 dataproc 集群创建一个空闲或正常运行时间指标,但从我在 stackdriver 中看到的情况来看,我无法这样做。 我的情况是,我每天都有 运行 定时数据处理作业,作业完成后我删除集群。 如果有空闲的 dataproc 集群在一个小时内什么都不做,或者 dataproc 集群的正常运行时间超过 24(甚至 20)小时,我想通过电子邮件创建警报。

谢谢。

你的问题中有 3 项我想单独解决:

  1. 关于空闲指标警报:Dataproc 不会公开此类指标,我将提交功能请求以供我们添加一个指标。同时,您可以通过检测此指标何时下降来近似空闲:dataproc.googleapis.com/cluster/yarn/containers 下降到 0 一个小时左右。

  2. 关于集群闲置一个小时或存活 24 小时。这可以通过 Dataproc 通过 Scheduled Deletion 功能自动完成:gcloud beta dataproc clusters create ... --max-age=24h --max-idle=1h

  3. 关于日常工作。我认为在这里你可以完全回避问题 #1 和 #2 并利用 Workflow Templates to manage cluster creation, teardown, and job execution. If your automation is through Api clients or you need to pass different parameters on each invocation InstantiateInline 方法来解决问题