德鲁伊队列分析?

Druid Cohort Analysis?

我们收集有关我们网站流量的数据,结果大约有 5 万到 10 万 一天的独特访问。

队列分析:

找出 24 小时内在 网站,然后实际转到我们的购买页面(计算 在第一、第二、第三等中有多少用户这样做的百分比 注册后一小时)。

两个非常简短的示例文档:

{ "sessionId": "some-random-id", "time":1428238800000,(unix 时间戳:4 月 5 日,3:00 下午) "url": "/注册" }

{ "sessionId": "some-random-id", "time":1428241500000,(unix 时间戳:4 月 5 日,3:45 下午) "url": "/购买" }

如果我想在一段时间内进行相同的聚合,比如 6 个月并想检查回头客的执行队列?这 数据集太大了。

旁注:我对获得 100% 准确的结果也不感兴趣, 一个近似值就足以进行趋势分析。

我们可以用德鲁伊来实现吗?或者不适合做这种分析?还有什么比队列分析更好的吗?

我想你可以用德鲁伊和数据草图来做到这一点。 看最后一个例子是这个page 如果您想使用这种近似方法,您可以查看 here 以了解近似的边界误差以及您可以用内存换取准确性的权衡。