有效地在文件中构建一组唯一行,而不在集合中存储实际行

Building a set of unique lines in a file efficiently, without storing actual lines in the set

最近我正在尝试解决以下问题:

我有一个非常大的文件,包含很长的行,我需要找到并打印出其中所有不同的行。

我不想使用 map 或 set 来存储实际的行,因为文件很大而且行很长,所以这会导致 O(N) space 的复杂度常量(其中 N 是行数)。最好,我宁愿生成一个集合来存储指向文件中唯一行的指针。显然,这种指针的大小(我相信在 64 位机器上是 8 个字节)通常比内存中的行大小(我相信每个字符 1 个字节)小得多。虽然 space 复杂度仍然是 O(N),但现在常量好多了。使用此实现,文件永远不需要完全加载到内存中。

现在,假设我将逐行检查文件,检查唯一性。要查看它是否已经在集合中,我可以比较到目前为止集合指向的所有行,逐个字符进行比较。这给出了 O(N^2*L) 复杂度,其中 L 是一行的平均长度。当不关心在集合中存储完整行时,可以实现 O(N*L) 复杂度,这要归功于散列。现在,当改用一组指针(以减少 space 要求)时,我怎样才能做到这一点?有没有一个巧妙的方法来做到这一点?我唯一能想到的就是这种方法:

  1. 散列句子。将散列值存储到映射(或者实际上:unordered_multimap 无序以获得散列映射样式,在 'false matches' 的情况下可以插入多个双键)。
  2. 对于每个新句子:检查它的哈希值是否已经在映射中。如果没有,请添加它。如果是,逐个字符比较完整的句子(新句子和无序映射中具有相同散列的句子),确保没有'false match'。如果是'false match',还是加上

这是正确的方法吗?或者有更好的方法吗?欢迎所有建议!

我可以使用一些聪明的 'comparison object'(或类似的东西,我对此还不是很了解)在每个 unordered_map::find( ) 电话?

你的解决方案对我来说很好,因为你存储的是 O(unique lines) 哈希而不是 N,所以这是一个下限。

既然你逐行扫描文件,你不妨对文件进行排序。现在重复的行将是连续的,您只需要检查前一行的散列。此方法使用 O(1) space 但您必须先对文件进行排序。

如果文件中没有您可以利用的特殊结构,那么一定要对行进行哈希处理。这将比实际将文件中的每一行与其他行进行比较要快几个数量级。

如果您的实际实施仍然太慢,您可以例如将散列限制在每行的第一部分。这将产生更多的误报,但假设大多数行在前几个词中已经偏离,它将显着加快文件处理速度(特别是,如果你是 I/O-bound)。

正如@saadtaame 的回答所说,您的 space 实际上是 O(unique lines) - 根据您的用例,这可能是可以接受的,也可能不是。

虽然散列当然有其优点,但可以想象它会遇到很多冲突问题 - 如果你不能有误报,那么它是不行的,除非你实际上保留行的内容以供检查.

您描述的解决方案是维护一个基于散列的集合。这显然是最直接的事情,是的,它需要在内存中维护所有唯一行。不过,这可能是也可能不是问题。该解决方案也是最容易实现的——您正在尝试做的正是(基于哈希的)集合的任何实现都会做的事情。您可以只使用 std::unordered_set,并将每一行添加到集合中。

由于我们是在抛出想法,您也可以使用 trie 作为集合的替代品。您可能会节省一些 space,但它仍然是 O(唯一行)。