如何使用 stackdriver 为 dataproc 集群创建 idle/uptime 指标
how to create idle/uptime metric for dataproc cluster with stackdriver
我想为我正在 运行 的所有 dataproc 集群创建一个空闲或正常运行时间指标,但从我在 stackdriver 中看到的情况来看,我无法这样做。
我的情况是,我每天都有 运行 定时数据处理作业,作业完成后我删除集群。
如果有空闲的 dataproc 集群在一个小时内什么都不做,或者 dataproc 集群的正常运行时间超过 24(甚至 20)小时,我想通过电子邮件创建警报。
谢谢。
你的问题中有 3 项我想单独解决:
关于空闲指标警报:Dataproc 不会公开此类指标,我将提交功能请求以供我们添加一个指标。同时,您可以通过检测此指标何时下降来近似空闲:dataproc.googleapis.com/cluster/yarn/containers
下降到 0 一个小时左右。
关于集群闲置一个小时或存活 24 小时。这可以通过 Dataproc 通过 Scheduled Deletion 功能自动完成:gcloud beta dataproc clusters create ... --max-age=24h --max-idle=1h
关于日常工作。我认为在这里你可以完全回避问题 #1 和 #2 并利用 Workflow Templates to manage cluster creation, teardown, and job execution. If your automation is through Api clients or you need to pass different parameters on each invocation InstantiateInline 方法来解决问题
我想为我正在 运行 的所有 dataproc 集群创建一个空闲或正常运行时间指标,但从我在 stackdriver 中看到的情况来看,我无法这样做。 我的情况是,我每天都有 运行 定时数据处理作业,作业完成后我删除集群。 如果有空闲的 dataproc 集群在一个小时内什么都不做,或者 dataproc 集群的正常运行时间超过 24(甚至 20)小时,我想通过电子邮件创建警报。
谢谢。
你的问题中有 3 项我想单独解决:
关于空闲指标警报:Dataproc 不会公开此类指标,我将提交功能请求以供我们添加一个指标。同时,您可以通过检测此指标何时下降来近似空闲:
dataproc.googleapis.com/cluster/yarn/containers
下降到 0 一个小时左右。关于集群闲置一个小时或存活 24 小时。这可以通过 Dataproc 通过 Scheduled Deletion 功能自动完成:
gcloud beta dataproc clusters create ... --max-age=24h --max-idle=1h
关于日常工作。我认为在这里你可以完全回避问题 #1 和 #2 并利用 Workflow Templates to manage cluster creation, teardown, and job execution. If your automation is through Api clients or you need to pass different parameters on each invocation InstantiateInline 方法来解决问题