Graphite 或 Grafana 可以用来监控 pyspark 指标吗?

can graphite or grafana used to monitor pyspark metrics?

在 pyspark 项目中,我们有 pyspark dataframe.foreachPartition(func),在该 func 中,我们有一些 aiohttp 调用来传输数据。什么类型的监控工具可用于监控数据速率、吞吐量、经过的时间等指标?在这种情况下我们可以使用 statsd 和 graphite 或 grafana(如果可能的话,他们是首选)?谢谢。

这是我的解决方案。我使用 PySpark 的累加器在驱动程序节点的每个分区收集指标(http 调用次数、每次调用发送的有效负载等),将这些累加器的值分配给 statsD gauge 变量,然后将这些指标发送到 Graphite 服务器,并最终在 Grafana 仪表板中将它们可视化。到目前为止效果很好。