gcc 中的数组与指针自动矢量化
Array vs pointer auto-vectorization in gcc
我正在尝试对 g++ 5.4 (-ftree-vectorize
) 使用自动矢量化。我注意到下面代码中的数组版本导致编译器错过了内部循环中的矢量化机会,从而导致与指针版本相比存在显着的性能差异。在这种情况下,有什么可以帮助编译器的吗?
void floydwarshall(float* mat, size_t n) {
#if USE_POINTER
for (int k = 0; k < n; ++k) {
for (int i = 0; i < n; ++i) {
auto v = mat[i*n + k];
for (int j = 0; j < n; ++j) {
auto val = v + mat[k*n+j];
if (mat[i*n + j] > val) {
mat[i*n + j] = val;
}
}
}
}
#else // USE_ARRAY
typedef float (*array)[n];
array m = reinterpret_cast<array>(mat);
for (int k = 0; k < n; ++k) {
for (int i = 0; i < n; ++i) {
auto v = m[i][k];
for (int j = 0; j < n; ++j) {
auto val = v + m[k][j];
if (m[i][j] > val) {
m[i][j] = val;
}
}
}
}
#endif
}
两个版本 做 矢量化,使用 g++5.4 -O3 -march=haswell
,由于 Marc 指出的原因,在内部循环中使用 vcmpltps/vmaskmovps。
如果你不让编译器使用 AVX 指令,它会更难。但是,如果我只使用 -O3
,我根本看不到任何一个版本矢量化(因此只有 SSE2 可用,因为它是 x86-64 的基准)。所以你原来的问题是基于我无法重现的结果。
将 if() 更改为三元运算符(因此代码始终存储到数组)让编译器加载/MINPS/无条件存储。如果您的矩阵不适合缓存,这将是大量的内存流量;也许你可以用不同的方式安排你的循环?也可能不是,因为需要 m[i][k]
,我认为事情发生的顺序很重要。
如果更新非常少,并且脏数据的回写导致内存瓶颈,如果向量元素的 none 被修改,甚至可能值得分支以避免存储。
这是一个很好矢量化的数组版本,即使只有 SSE2。我添加了代码来告诉编译器输入已对齐并且大小是 8 的倍数(每个 AVX 向量的浮点数)。如果你的真实代码不能做出这些假设,那么就把那部分去掉。它使矢量化部分更容易找到,因为它没有埋在标量 intro/cleanup 代码中。 (使用 -O2 -ftree-vectorize
不会以这种方式完全展开清理代码,但 -O3
可以。)
我注意到在没有 AVX 的情况下,gcc 仍然使用未对齐的加载但对齐的存储。也许它没有意识到如果 m[i][j]
对齐,大小是 8 的倍数应该使 m[k][j]
对齐?这可能是指针版本和数组版本的区别。
code on the Godbolt compiler explorer
void floydwarshall_array_unconditional(float* mat, size_t n) {
// try to tell gcc that it doesn't need scalar intro/outro code
// The vectorized inner loop isn't particularly different without these, but it means less wading through scalar cleanup code (and less bloat if you can use this in your real code).
// works with gcc6, doesn't work with gcc5.4
mat = (float*)__builtin_assume_aligned(mat, 32);
n /= 8;
n *= 8; // code is simpler if matrix size is always a multiple of 8 (floats per AVX vector)
typedef float (*array)[n];
array m = reinterpret_cast<array>(mat);
for (size_t k = 0; k < n; ++k) {
for (size_t i = 0; i < n; ++i) {
auto v = m[i][k];
for (size_t j = 0; j < n; ++j) {
auto val = v + m[k][j];
m[i][j] = (m[i][j]>val) ? val : m[i][j]; // Marc's suggested change: enables vectorization with unconditional stores.
}
}
}
}
gcc5.4 无法避免矢量化部分周围的标量 intro/cleanup 代码,但 gcc6.2 可以。两个编译器版本的矢量化部分基本相同。
## The inner-most loop (with gcc6.2 -march=haswell -O3)
.L5:
vaddps ymm0, ymm1, YMMWORD PTR [rsi+rax]
vminps ymm0, ymm0, YMMWORD PTR [rdx+rax] #### Note use of minps and unconditional store, enabled by using the ternary operator instead of if().
add r14, 1
vmovaps YMMWORD PTR [rdx+rax], ymm0
add rax, 32
cmp r14, r13
jb .L5
外面的下一个循环执行一些整数计数器检查(使用一些 setcc 东西),并执行 vmovss xmm1, DWORD PTR [rax+r10*4]
和一个单独的 vbroadcastss ymm1, xmm1
。据推测,它跳转到的标量清理不需要广播,并且 gcc 不知道即使不需要广播部分,使用 VBROADCASTSS 作为负载总体上也会更便宜。
我正在尝试对 g++ 5.4 (-ftree-vectorize
) 使用自动矢量化。我注意到下面代码中的数组版本导致编译器错过了内部循环中的矢量化机会,从而导致与指针版本相比存在显着的性能差异。在这种情况下,有什么可以帮助编译器的吗?
void floydwarshall(float* mat, size_t n) {
#if USE_POINTER
for (int k = 0; k < n; ++k) {
for (int i = 0; i < n; ++i) {
auto v = mat[i*n + k];
for (int j = 0; j < n; ++j) {
auto val = v + mat[k*n+j];
if (mat[i*n + j] > val) {
mat[i*n + j] = val;
}
}
}
}
#else // USE_ARRAY
typedef float (*array)[n];
array m = reinterpret_cast<array>(mat);
for (int k = 0; k < n; ++k) {
for (int i = 0; i < n; ++i) {
auto v = m[i][k];
for (int j = 0; j < n; ++j) {
auto val = v + m[k][j];
if (m[i][j] > val) {
m[i][j] = val;
}
}
}
}
#endif
}
两个版本 做 矢量化,使用 g++5.4 -O3 -march=haswell
,由于 Marc 指出的原因,在内部循环中使用 vcmpltps/vmaskmovps。
如果你不让编译器使用 AVX 指令,它会更难。但是,如果我只使用 -O3
,我根本看不到任何一个版本矢量化(因此只有 SSE2 可用,因为它是 x86-64 的基准)。所以你原来的问题是基于我无法重现的结果。
将 if() 更改为三元运算符(因此代码始终存储到数组)让编译器加载/MINPS/无条件存储。如果您的矩阵不适合缓存,这将是大量的内存流量;也许你可以用不同的方式安排你的循环?也可能不是,因为需要 m[i][k]
,我认为事情发生的顺序很重要。
如果更新非常少,并且脏数据的回写导致内存瓶颈,如果向量元素的 none 被修改,甚至可能值得分支以避免存储。
这是一个很好矢量化的数组版本,即使只有 SSE2。我添加了代码来告诉编译器输入已对齐并且大小是 8 的倍数(每个 AVX 向量的浮点数)。如果你的真实代码不能做出这些假设,那么就把那部分去掉。它使矢量化部分更容易找到,因为它没有埋在标量 intro/cleanup 代码中。 (使用 -O2 -ftree-vectorize
不会以这种方式完全展开清理代码,但 -O3
可以。)
我注意到在没有 AVX 的情况下,gcc 仍然使用未对齐的加载但对齐的存储。也许它没有意识到如果 m[i][j]
对齐,大小是 8 的倍数应该使 m[k][j]
对齐?这可能是指针版本和数组版本的区别。
code on the Godbolt compiler explorer
void floydwarshall_array_unconditional(float* mat, size_t n) {
// try to tell gcc that it doesn't need scalar intro/outro code
// The vectorized inner loop isn't particularly different without these, but it means less wading through scalar cleanup code (and less bloat if you can use this in your real code).
// works with gcc6, doesn't work with gcc5.4
mat = (float*)__builtin_assume_aligned(mat, 32);
n /= 8;
n *= 8; // code is simpler if matrix size is always a multiple of 8 (floats per AVX vector)
typedef float (*array)[n];
array m = reinterpret_cast<array>(mat);
for (size_t k = 0; k < n; ++k) {
for (size_t i = 0; i < n; ++i) {
auto v = m[i][k];
for (size_t j = 0; j < n; ++j) {
auto val = v + m[k][j];
m[i][j] = (m[i][j]>val) ? val : m[i][j]; // Marc's suggested change: enables vectorization with unconditional stores.
}
}
}
}
gcc5.4 无法避免矢量化部分周围的标量 intro/cleanup 代码,但 gcc6.2 可以。两个编译器版本的矢量化部分基本相同。
## The inner-most loop (with gcc6.2 -march=haswell -O3)
.L5:
vaddps ymm0, ymm1, YMMWORD PTR [rsi+rax]
vminps ymm0, ymm0, YMMWORD PTR [rdx+rax] #### Note use of minps and unconditional store, enabled by using the ternary operator instead of if().
add r14, 1
vmovaps YMMWORD PTR [rdx+rax], ymm0
add rax, 32
cmp r14, r13
jb .L5
外面的下一个循环执行一些整数计数器检查(使用一些 setcc 东西),并执行 vmovss xmm1, DWORD PTR [rax+r10*4]
和一个单独的 vbroadcastss ymm1, xmm1
。据推测,它跳转到的标量清理不需要广播,并且 gcc 不知道即使不需要广播部分,使用 VBROADCASTSS 作为负载总体上也会更便宜。