linux 上的 AVX 分段错误

AVX segmentation fault on linux

我正在尝试 运行 这段代码,当我 运行 它时它说分段错误。它编译得很好。这是代码。 (在 windows 上运行良好)。

#include<iostream>
#include<vector>
#include<immintrin.h>

const int size = 1000000;

std::vector<float>A(size);
std::vector<float>B(size);
std::vector<float>C(size);

void bar(int i){
    const float a = 2.0f;
    __m256 _a = _mm256_broadcast_ss(&a);
    __m256 _A = _mm256_load_ps(&A[0] + i*8);
    __m256 _B = _mm256_load_ps(&B[0] + i*8);
    __m256 _C = _mm256_add_ps(_B, _mm256_mul_ps(_a,_A));
    _mm256_store_ps(&C[0] + i*8, _C);
}


int main(){
    std::fill(A.begin(), A.end(), 1.0f);
    std::fill(B.begin(), B.end(), 2.0f);
    bar(0);

    return 0;
}

编译:g++ -mavx t2.cpp -o t2

它在遇到第一条 AVX 指令时退出。 我只是希望有人审查我的代码。

这是 gdb 回溯

(gdb) run
Program received signal SIGSEGV, Segmentation fault.
0x0000000000400aea in bar(int) ()
Missing separate debuginfos, use: debuginfo-install glibc-2.17-78.el7.x86_64 libgcc-4.8.3-9.el7.x86_64 libstdc++-4.8.3-9.el7.x86_64
(gdb) bt
#0  0x0000000000400aea in bar(int) ()
#1  0x0000000000400b95 in main ()
(gdb)

可能是数据对齐问题。 _mm256_load_ps 需要 256 位(32 字节)对齐的内存。 std::vector 的默认分配器不满足该要求。您需要提供一个对齐的分配器或使用另一个对齐要求不太严格的指令(例如 _mm256_loadu_ps)。