使用德鲁伊石墨发射器扩展
Using druid graphite emitter extension
我正在试用德鲁伊中的石墨发射器插件,以在德鲁伊性能测试期间收集石墨中的某些德鲁伊指标。
目的是使用 Graphite 提供的 REST API 查询这些指标,以表征部署的性能。
但是,石墨返回的数字没有意义。所以,我想检查一下我是否以正确的方式解释了结果。
设置
- kafka 索引服务用于将数据从 kafka 提取到 druid。
- 我已经启用了石墨发射器并提供了要收集的指标白名单。
- 然后我将5000个事件推送到被索引的kafka主题。使用kafka相关工具,我确认消息确实存储在kafka日志中。
- 接下来,我使用以下调用从石墨中检索了
ingest.rows.output metric
:
curl "http://Graphite_IP:Graphite_Port>/render/?target=druid.test.ingest.rows.output&format=csv"
- 以下是我得到的结果:
druid.test.ingest.rows.output,2017-02-22 01:11:00,0.0
druid.test.ingest.rows.output,2017-02-22 01:12:00,152.4
druid.test.ingest.rows.output,2017-02-22 01:13:00,97.0
druid.test.ingest.rows.output,2017-02-22 01:14:00,0.0
我不知道这些数字需要如何解释:
问题
- 输出中的数字 152.4 和 97.0 表示什么?
- 'number of rows' 怎么可能是像 152.4 这样的浮点值?
- 这些数字与我推送的“5000”条消息有什么关系
卡夫卡?
提前致谢,
Jithin
根据德鲁伊指标page,它表示汇总后的事件数。
观察到的浮点值是由于计算了石墨服务器用来汇总数据的 window 时间段内的平均值。
因此,如果这些指标是完整的,则意味着您最初的 5000 行被压缩到大约 250 行。
经过一些实验,我发现了这个问题。由于我的 kafka 主题有多个分区,druid 运行多个任务来索引 kafka 数据(每个分区一个任务)。这些任务中的每一个都会定期报告各种指标。对于每个指标,每个时间间隔从石墨中获得的数字是该间隔内所有任务报告的指标值的平均值。在我上面的例子中,如果聚合函数是求和(而不是平均值),从石墨中获得的值应该是 5000。
但是,我无法弄清楚平均是由 graphite-emitter
德鲁伊插件还是石墨完成的。
我正在试用德鲁伊中的石墨发射器插件,以在德鲁伊性能测试期间收集石墨中的某些德鲁伊指标。 目的是使用 Graphite 提供的 REST API 查询这些指标,以表征部署的性能。
但是,石墨返回的数字没有意义。所以,我想检查一下我是否以正确的方式解释了结果。
设置
- kafka 索引服务用于将数据从 kafka 提取到 druid。
- 我已经启用了石墨发射器并提供了要收集的指标白名单。
- 然后我将5000个事件推送到被索引的kafka主题。使用kafka相关工具,我确认消息确实存储在kafka日志中。
- 接下来,我使用以下调用从石墨中检索了
ingest.rows.output metric
:
curl "http://Graphite_IP:Graphite_Port>/render/?target=druid.test.ingest.rows.output&format=csv"
- 以下是我得到的结果:
druid.test.ingest.rows.output,2017-02-22 01:11:00,0.0 druid.test.ingest.rows.output,2017-02-22 01:12:00,152.4 druid.test.ingest.rows.output,2017-02-22 01:13:00,97.0 druid.test.ingest.rows.output,2017-02-22 01:14:00,0.0
我不知道这些数字需要如何解释:
问题
- 输出中的数字 152.4 和 97.0 表示什么?
- 'number of rows' 怎么可能是像 152.4 这样的浮点值?
- 这些数字与我推送的“5000”条消息有什么关系 卡夫卡?
提前致谢,
Jithin
根据德鲁伊指标page,它表示汇总后的事件数。 观察到的浮点值是由于计算了石墨服务器用来汇总数据的 window 时间段内的平均值。 因此,如果这些指标是完整的,则意味着您最初的 5000 行被压缩到大约 250 行。
经过一些实验,我发现了这个问题。由于我的 kafka 主题有多个分区,druid 运行多个任务来索引 kafka 数据(每个分区一个任务)。这些任务中的每一个都会定期报告各种指标。对于每个指标,每个时间间隔从石墨中获得的数字是该间隔内所有任务报告的指标值的平均值。在我上面的例子中,如果聚合函数是求和(而不是平均值),从石墨中获得的值应该是 5000。
但是,我无法弄清楚平均是由 graphite-emitter
德鲁伊插件还是石墨完成的。