计算列表中 k 个最大数字之和的有效方法？

Question

我正在阅读一些面试练习题，对此我有疑问。假设一个随机整数列表，每个整数介于 1 和 100 之间，计算 k 个最大整数的总和？讨论 space 和时间复杂度，如果每个整数都在 1 和 m 之间（其中 m 变化），方法是否会改变？

我的第一个想法是对数组进行排序并计算最大的 k 个数字的总和。然后，我想如果我使用一个二叉树结构，我可以从右下角的树开始看。我不确定我的方法是否会改变数字是 1 到 100 还是 1 到 m？有什么最有效的方法吗？

Answer 1

最有效的方法可能是使用类似 randomized quickselect 的方法。它不会执行排序步骤直至完成，而只是执行快速排序的分区步骤。如果您不希望以某种特定顺序出现 k 个最大整数，这就是我要采用的方式。它需要线性时间，但分析不是很简单。 m 对此影响不大。此外，您可以编写代码，在对数组进行分区时计算总和。

Time: O(n)
Space: O(1)

备选方案 正在使用类似counting sort 的方法进行排序，它具有线性时间保证。正如您所说的值是固定范围内的整数，它会工作得很好。随着 m 的增加，space 要求上升，但在桶内计算总和非常有效。

Time: O(m) in the worst case (see comments for the argument)
Space: O(m)

Answer 2

我想说排序可能是不必要的。如果 k 很小，那么您需要做的就是维护一个排序列表，该列表截断第 k 个最大元素之外的元素。

其中的每一步都应该是 O(k) 在最坏的可能情况下，即添加的元素被最大化。然而，一般情况下情况要好得多，在一定数量的元素之后，大多数应该小于列表中的最后一个元素并且操作将是 O(log(k)).

Answer 3

一种方法是使用最大大小为 k 的 min-heap (implemented as a binary tree)。查看一个新元素是否属于堆的时间复杂度为 O(1)，因为它是一个最小堆，并且检索最小元素是一个常数时间操作。 O(n) 列表中的每个插入步骤（或非插入......在元素太小而无法插入的情况下）是 O(log k)。最后的树遍历和求和步骤是 O(k)。

总复杂度：

O (n log k + k) = O(n log k))

除非你的计算机上有多个内核运行，在这种情况下，并行计算是一种选择，求和应该只在最后进行。即时计算会增加额外的计算步骤，而实际上根本不会降低您的时间复杂度（您实际上会有更多的计算要做）。无论如何，您总是需要对 k 个元素求和，那么为什么不避免额外的加法和减法步骤呢？

计算列表中 k 个最大数字之和的有效方法？

Efficient way to compute sum of k largest numbers in a list?

arrays

algorithm

list

data-structures