libstdc++ 并行模式快速排序的加速不佳

Question

我无法通过 libstdc++（并行模式）的并行实现使用就地排序算法（快速排序和平衡快速排序；QS/BQS）获得高于 2 的加速比。我尝试运行许多不同系统上的代码，这些系统由 16 到 24 个内核组成。我也尝试过 GNU 和 Intel C++ 编译器，即使在不同的版本中，也总是有相同的结果。对于 2 和最大值之间的任意数量的核心，2 左右的加速是相同的。

相反，多路归并排序 (MWMS) 扩展性很好（在 16 核机器上使用 16 个线程，加速大约 10）。根据 J. Singler 的介绍 "The GNU libstdc++ parallel mode: Benefit from Multi-Core using the STL"，他们测得的 BQS 加速与 MWMS 几乎相同（参见第 18 页，http://ls11-www.cs.uni-dortmund.de/people/gutweng/AD08/VO11_parallel_mode_overview.pdf）；他们观察到使用 32 个线程的 BQS 加速超过 20。

知道为什么会发生这种情况或者我做错了什么吗？

Answer 1

我似乎只是通过调用就解决了这个问题：

omp_set_nested(1);

文档对此要求有点不清楚。此外，我希望图书馆能够自行执行调用。希望这对其他人也有帮助。

libstdc++ 并行模式快速排序的加速不佳

Poor speedup with libstdc++ parallel mode quick sort

c++

parallel-processing

quicksort

libstdc++

c++-standard-library