为什么 __m256 而不是 'float' 提供超过 x8 的性能？

Question

为什么我通过使用 __m256 数据类型获得如此巨大的加速（x16 倍）？一次处理 8 个浮点数，所以我希望只能看到 x8 加速？

我的CPU是4核Devil Canyon i7（有超线程）在发布模式下使用 visual studio 2017 编译 -O2 优化已打开。

快速版本在 400x400 矩阵上消耗 0.000151 秒：

//make this matrix only keep the signs of its entries
inline void to_signs() {

    __m256 *i = reinterpret_cast<__m256*>(_arrays);
    __m256 *end = reinterpret_cast<__m256*>(_arrays + arraysSize());

    __m256 maskPlus = _mm256_set1_ps(1.f);
    __m256 maskMin =  _mm256_set1_ps(-1.f);

    //process the main portion of the array.  NOTICE: size might not be divisible by 8:
    while(true){
        ++i;
        if(i > end){  break; }

        __m256 *prev_i = i-1;
        *prev_i = _mm256_min_ps(*prev_i, maskPlus);
        *prev_i = _mm256_max_ps(*prev_i, maskMin);
    }

    //process the few remaining numbers, at the end of the array:
    i--;
    for(float *j=(float*)i; j<_arrays+arraysSize(); ++j){
        //taken from here:http://www.musicdsp.org/showone.php?id=249
        // mask sign bit in f, set it in r if necessary:
        float r = 1.0f;
        (int&)r |= ((int&)(*j) & 0x80000000);//according to author, can end up either -1 or 1 if zero.
        *j = r;
    }
}

旧版本，运行时间为 0.002416 秒：

inline void to_signs_slow() {
    size_t size = arraysSize();

    for (size_t i = 0; i<size; ++i) {
        //taken from here:http://www.musicdsp.org/showone.php?id=249
        // mask sign bit in f, set it in r if necessary:

        float r = 1.0f;
        (int&)r |= ((int&)_arrays[i] & 0x80000000);//according to author, can end up either -1 or 1 if zero.
        _arrays[i] = r;
    }
}

它是不是偷偷用了2个核心，所以一旦我开始使用多线程，这个好处就会消失？

编辑：

在更大的矩阵上，大小为 (10e6)x(4e4) 我平均得到 3 秒和 14 秒。所以只有 x4 加速，甚至没有 x8

不过，我的问题是关于令人愉快的 x16 加速惊喜:)

Answer 1

你的标量版本看起来很糟糕（带有用于类型双关的引用转换），并且可能编译为非常低效的 asm，这比将每个 32 位元素复制到 [=11= 的位模式中要慢得多].这应该只需要一个整数 AND 和一个 OR 来做标量（如果 MSVC 无法为你自动矢量化），但如果编译器将它复制到 XMM 寄存器或其他东西，我不会感到惊讶。

您的第一个手动矢量化版本甚至没有做同样的工作，但是，它只是屏蔽掉所有非符号位以留下 -0.0f 或 +0.0f。因此它将编译为一个 vandps ymm0, ymm7, [rdi] 和一个 vmovups [rdi], ymm0 的 SIMD 存储，加上一些循环开销。

并不是说添加 _mm256_or_ps 和 set1(1.0f) 会减慢它的速度，您仍然会在缓存带宽或每时钟 1 个存储吞吐量上遇到瓶颈。

然后您将其编辑为一个夹在 -1.0f .. +1.0f 范围内的版本，留下幅度小于 1.0 的输入未修改。这不会比两个按位操作慢，除了 Haswell（魔鬼峡谷）在端口 5 上只有运行s FP 布尔值，而端口 0 或端口 1 上的实际 FP 东西。

特别是如果你没有对你的浮点数做任何其他事情，你实际上会想要使用 _si256 内在函数来对它们使用 AVX2 整数指令，以提高 Haswell 的速度。（但是如果没有 AVX2，你的代码就不能运行。）

在 Skylake 和更新版本上，FP 布尔值可以使用所有 3 个向量 ALU 端口。（https://agner.org/optimize/ 用于说明表和 uarch 指南。）

您的代码应该类似于：

// outside the loop if you want
const __m256i ones = _mm256_castps_si256(_mm256_set1_ps(1.0f));

for (something ; p += whatever) {
    __m256i floats = _mm256_load_si256( (const __m256i*)p );
    __m256i signs = _mm256_and_si256(floats,  _mm256_set1_epi32(0x80000000));
    __m256i applied = _mm256_or_si256(signs, ones);
    _mm256_store_si256((__m256i*)p, applied);

}

为什么 __m256 而不是 'float' 提供超过 x8 的性能？

Why __m256 instead of 'float' gives more than x8 performance?

c++

sse

intrinsics

compiler-optimization

visual-c++