交叉点计数的数据结构

DataStructure for Intersection Counts

我们有一个要求,我们必须在每个月的每一天的每个小时为各种组合(满足条件的用户)维护不同的计数。我们正在考虑为此使用 HyperLogLog,其他要求之一是为匹配条件(条件)提供并集和交集的计数。

我们必须在 day/week/month 上执行这些操作。据我所知,联合是通过 hyperloglog 支持的。对于超过 2 个 hyperloglog 的路口,错误率似乎很高。是否有任何其他数据结构我们可以用于交集仅满足具有高基数的低 space 要求或支持交集和并集以计算大量不同事件的东西?

任何指示都会有所帮助。谢谢!!

查看使用 MinHash 扩充 HyperLogLog。