在 Flux 中优化 Group By
Optimizing Group By in Flux
我有几百万行数据的测量,其中包含大约 2 万个网站的信息。
show tag keys from site_info:
domain
proxy
http_response_code
show field keys from site_info:
responseTime
uuid
source
我想做的是计算给定时间范围内每个网站的所有 uuid。我试过写这样的查询:
from(bucket: "telegraf/autogen")
|> range($range)
|> filter(fn: (r) =>
r._measurement == "site_info"
r._field == "uuid")
|> group(columns:["domain"])
|> count()
然而,此查询最多需要 45 分钟才能到达 运行,时间范围仅为 now()-6h
(假设是因为我正在尝试将数据分组到 20k+ 个桶中)
关于如何优化查询以在不更改数据模式的情况下不花费如此长的时间的任何建议?
我认为目前 flux 的 influx 数据存储集成根本没有优化。他们宣布性能调整应该从测试阶段开始。
我有几百万行数据的测量,其中包含大约 2 万个网站的信息。
show tag keys from site_info:
domain
proxy
http_response_code
show field keys from site_info:
responseTime
uuid
source
我想做的是计算给定时间范围内每个网站的所有 uuid。我试过写这样的查询:
from(bucket: "telegraf/autogen")
|> range($range)
|> filter(fn: (r) =>
r._measurement == "site_info"
r._field == "uuid")
|> group(columns:["domain"])
|> count()
然而,此查询最多需要 45 分钟才能到达 运行,时间范围仅为 now()-6h
(假设是因为我正在尝试将数据分组到 20k+ 个桶中)
关于如何优化查询以在不更改数据模式的情况下不花费如此长的时间的任何建议?
我认为目前 flux 的 influx 数据存储集成根本没有优化。他们宣布性能调整应该从测试阶段开始。