count min sketch 如何找到流中出现频率最高的项目? - 重击手

How does count min sketch find the most frequent item in a stream? - Heavy Hitters

Count min sketch 使用不同的哈希函数将流中的元素映射到哈希函数。如何从草图映射回来找到最频繁的项目?考虑到足够的元素已经通过(百万)而我们不知道这些元素。

首先,为了存储数据,CMS 使用成对独立的哈希函数来映射其结构中的元素(将其视为 table)。 其次,不支持原样的逆向处理,这是从table来区分CMS中不同的元素。

使用单独的元素作为查询,您可以使用相同的哈希函数系列(点查询)检索它们在流中的估计计数。

为了检索最频繁的 item/items 应该使用额外的数据结构,例如堆。 Appart 来自 CMS 论文,在这里可以找到关于您的问题的快速有用的介绍:http://theory.stanford.edu/~tim/s15/l/l2.pdf