如何让这个并行求和函数使用向量指令?

How can I make this parallel sum function use vector instructions?

作为一个业余项目,我正在研究多线程求和算法,在处理足够大的数组时,它的性能优于 std::accumulate。首先,我将描述导致此问题的思考过程,但如果您想直接跳到问题,请随时向下滚动到该部分。

网上找了很多并行求和的算法,大部分都是采用以下方法:

template <typename T, typename IT>
T parallel_sum(IT _begin, IT _end, T _init) {
    const auto size = distance(_begin, _end);
    static const auto n = thread::hardware_concurrency();
    if (size < 10000 || n == 1) return accumulate(_begin, _end, _init);
    vector<future<T>> partials;
    partials.reserve(n);
    auto chunkSize = size / n;
    for (unsigned i{ 0 }; i < n; i++) {
        partials.push_back(async(launch::async, [](IT _b, IT _e){
            return accumulate(_b, _e, T{0});
        }, next(_begin, i*chunkSize), (i==n-1)?_end:next(_begin, (i+1)*chunkSize)));
    }
    for (auto& f : partials) _init += f.get();
    return _init;
}

假设有 2 个线程可用(如 thread::hardware_concurrency() 所报告),此函数将按以下方式访问内存中的元素:

作为一个简单的例子,我们在这里查看 8 个元素。两条线用红色和蓝色表示。箭头显示线程希望加载数据的位置。一旦单元格变成红色或蓝色,它们就会被相应的线程加载。

这种方法(至少在我看来)不是最好的,因为线程同时从内存的不同部分加载数据。如果你有很多处理线程,比如在 8 核超线程 CPU 上有 16 个,甚至更多,CPU 的预取器将很难跟上所有这些读取来自完全不同的内存部分(假设数组太大而无法放入缓存)。这就是为什么我认为第二个例子 应该 更快:

template <typename T, typename IT>
T parallel_sum2(IT _begin, IT _end, T _init) {
    const auto size = distance(_begin, _end);
    static const auto n = thread::hardware_concurrency();
    if (size < 10000 || n == 1) return accumulate(_begin, _end, _init);
    vector<future<T>> partials;
    partials.reserve(n);
    for (unsigned i{ 0 }; i < n; i++) {
        partials.push_back(async(launch::async, [](IT _b, IT _e, unsigned _s){
            T _ret{ 0 };
            for (; _b < _e; advance(_b, _s)) _ret += *_b;
            return _ret;
        }, next(_begin, i), _end, n));
    }
    for (auto& f : partials) _init += f.get();
    return _init;
}

此函数以一种顺序方式访问内存,如下所示:

这样预取器总是能够保持领先,因为所有线程都访问内存的相同部分,所以应该有更少的缓存未命中,并且总体上加载时间更快,至少我是这样认为的。

问题 是虽然这在理论上很好而且花花公子,但这些的实际编译版本显示不同的结果。第二个要慢得多。我更深入地研究了这个问题,发现为实际添加生成的汇编代码非常不同。这些是每个执行加法的 "hot loops"(请记住,第一个在内部使用 std::accumulate,所以您基本上是在看它):

请忽略百分比和颜色,我的分析器有时会出错。

我注意到 std::accumulate 在编译时使用了 AVX2 矢量指令 vpaddq。这可以一次添加四个 64 位整数。我认为第二个版本不能向量化的原因是每个线程一次只访问一个元素,然后跳过一些。矢量加法将加载几个连续的元素,然后将它们加在一起。显然这是不可能做到的,因为线程不会连续加载元素。我尝试在第二个版本中手动展开 for 循环,并且该向量指令确实出现在程序集中,但由于某种原因整个过程变得非常缓慢。

以上结果和汇编代码来自 gcc 编译版本,但同样的行为也可以在 Visual Studio 2015 中观察到,尽管我没有查看它生成的汇编。

那么有没有办法在保留这种顺序内存访问模型的同时利用向量指令的优势?或者与函数的第一个版本相比,这种内存访问方法是否有帮助?

我写了一点benchmark program,准备编译和运行,以防万一你想自己看表演。

PS.: 我的主要目标硬件是现代的 x86_64(比如 haswell 等)。

每个核心都有自己的缓存和预取。

您应该将每个线程视为独立执行的程序。在这种情况下,第二种方法的缺点将很明显:您不能在单线程中访问顺序数据。有不应该处理的孔,所以线程不能使用向量指令。

另一个问题:CPU 以块的形式预取数据。由于不同缓存级别的工作方式,更改块内的某些数据标志着缓存已过时,如果其他内核尝试对同一数据块执行某些操作,则需要等待直到第一个内核写入更改并再次检索该块。基本上在您的第二个示例中,缓存总是过时的,您会看到原始内存访问性能。

处理并发处理的最佳方法是以大的连续块处理数据。