在 SSE 寄存器中存储常量(GCC、C++)
Storing a constant in SSE register (GCC, C++)
你好 Whosebug 社区
我遇到了以下挑战:在我的 C++ 应用程序中,我有一个非常复杂的(三次)循环,在其中,在所有深度,我执行以下操作:
- 计算 4 个浮点值
- 将所有 4 个值乘以一个常数
- 将浮点数转换为整数
此代码将 运行 每个循环中有数千次迭代(导致数十亿次操作),我想让它尽可能快,所以我试图利用 SSE 处理器指令.
在尝试手动优化代码时,我遇到了以下障碍:每次我到达将所有值乘以一个常数的部分时,该常数都必须加载到 XMM 寄存器。我的想法是保留一个寄存器(并禁止编译器使用它),一次加载值,然后用那个特定的寄存器对乘法进行硬编码,但是我找不到正确的方法来做到这一点。
顺便问一下,有人可以向我解释一下,为什么这段代码:
vmovaps .LC0(%rip), %xmm1
movl 00000000, %eax
vmovaps .LC1(%rip), %xmm0
.p2align 4,,10
.p2align 3
.L2:
#APP
# 26 "sse.cpp" 1
.intel_syntax noprefix;
mulps %xmm1,%xmm0;
.att_syntax prefix;
# 0 "" 2
#NO_APP
subl , %eax
jne .L2
性能比下面的更差(实际 0m1.656s vs 实际 0m1.618s):
vmovaps .LC0(%rip), %xmm1
movl 00000000, %eax
vmovaps .LC1(%rip), %xmm0
.p2align 4,,10
.p2align 3
.L2:
vmulps %xmm0, %xmm1, %xmm1
subl , %eax
jne .L2
(不同之处在于,我在 gcc [第一个片段] 和旧版 SSE 指令中使用 intel 语法以实现兼容性,而 gcc 使用 AVX 向量自动生成版本 [第二个片段])
请注意,您需要更具体地说明编译方式,并可能提供最少的示例。我知道这可能不是最佳答案,但我认为它已经足够好了。它变长了,但这是因为代码。
下面工作的底线是留给编译器并使用适当的编译器标志应该是安全的。在底部我举了一个如何使用局部寄存器变量的例子,但它可能不会很有用(它很容易被忽略)。您可以使用全局寄存器变量,但它不会产生任何好的结果,因此不鼓励。
我的 set-up 是 Intel(R) Core(TM) i7-4770 CPU
、gcc version 4.9.2
和 clang version 3.5.0
。下面的代码确实将 avx_scalar
存储在具有 -O1
及更高版本的 xmm
寄存器中。没有或 -O0
他们没有。生成程序集的代码是:
[clang++|g++] -march=native -S -Ox ./sse.cpp
,
其中 x
是优化级别。
有趣的是,在我测试的任何情况下,-march=archive
两个编译器都决定使用 SSE4.1 版本而不是旧版 SSE,即使我在代码本身中使用了旧版 SSE 内在函数。这个不错。
我还使用 SSE4.1 header smmintrin.h
进行了测试。如果没有标志,gcc 使用旧版 SSE 并且 clang 无法使用 error: "SSE4.1 instruction set not enabled"
进行编译。使用 xmmintrin.h
这是遗留的 SSE header,两个编译器都在存在标志的情况下生成 AVX 版本,而在没有标志的情况下生成遗留版本。
测试码avx.cpp
:
extern "C"
{
#include <smmintrin.h>
}
const float scalar = 3.14;
const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 vector;
__m128 its_me(){
__m128 ret;
__m128 result;
for(int i = 0; i < 1000; ++i)
{
vector = _mm_set_ps(i*1,i*2,i*3,i*4);
result = _mm_mul_ps(vector, avx_scalar);
ret = _mm_add_ps(ret, result);
}
return ret;
}
g++ -march=native -S -O2 ./avx.cpp
的相关部分:
.LFB639:
.cfi_startproc
vmovaps _ZL10avx_scalar(%rip), %xmm5
xorl %edx, %edx
.p2align 4,,10
.p2align 3
.L2:
leal (%rdx,%rdx), %ecx
vxorps %xmm2, %xmm2, %xmm2
vxorps %xmm1, %xmm1, %xmm1
vxorps %xmm3, %xmm3, %xmm3
leal 0(,%rdx,4), %eax
vcvtsi2ss %ecx, %xmm3, %xmm3
vxorps %xmm4, %xmm4, %xmm4
vcvtsi2ss %eax, %xmm2, %xmm2
leal (%rcx,%rdx), %eax
vcvtsi2ss %edx, %xmm4, %xmm4
addl , %edx
vcvtsi2ss %eax, %xmm1, %xmm1
vunpcklps %xmm4, %xmm3, %xmm3
vunpcklps %xmm1, %xmm2, %xmm1
vmovlhps %xmm3, %xmm1, %xmm1
vmulps %xmm5, %xmm1, %xmm2
vaddps %xmm2, %xmm0, %xmm0
cmpl 00, %edx
jne .L2
vmovaps %xmm1, vector(%rip)
ret
.cfi_endproc
和clang++ -march=native -S -O2 ./avx.cpp
:
# BB#0:
xorl %eax, %eax
movl , %ecx
movl , %edx
vmovaps _ZL10avx_scalar(%rip), %xmm1
xorl %esi, %esi
# implicit-def: XMM0
.align 16, 0x90
.LBB0_1: # =>This Inner Loop Header: Depth=1
leal -2(%rdx), %r8d
leal -4(%rcx), %edi
vmovd %edi, %xmm2
vpinsrd , %eax, %xmm2, %xmm2
vpinsrd , %r8d, %xmm2, %xmm2
vpinsrd , %esi, %xmm2, %xmm2
vcvtdq2ps %xmm2, %xmm2
vmulps %xmm1, %xmm2, %xmm2
vaddps %xmm2, %xmm0, %xmm0
leal 1(%rsi), %r8d
leal 3(%rax), %edi
vmovd %ecx, %xmm2
vpinsrd , %edi, %xmm2, %xmm2
vpinsrd , %edx, %xmm2, %xmm2
vpinsrd , %r8d, %xmm2, %xmm2
vcvtdq2ps %xmm2, %xmm2
vmulps %xmm1, %xmm2, %xmm3
vaddps %xmm3, %xmm0, %xmm0
addl , %esi
addl , %eax
addl , %ecx
addl , %edx
cmpl 00, %esi # imm = 0x3E8
jne .LBB0_1
# BB#2:
vmovaps %xmm2, vector(%rip)
retq
仅作记录,您可以手动将局部变量放入寄存器,但 clang 完全忽略并且 gcc -01
和 above.I 鼓励在 g++ -march=native -S -Ox ./avx.cpp
的输出中寻找 xmm13
,下面的代码具有不同的 x
值(假设您的 cpu 上至少有 13 个 xmm 寄存器):
extern "C"
{
#include <xmmintrin.h>
}
const float scalar = 3.14;
__m128 its_me(){
__m128 vector;
register __m128 avx_scalar asm ("xmm13") = _mm_set1_ps(scalar); // that's how you do it in gcc.
//const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 ret;
__m128 result;
for(int i = 0; i < 1000; ++i)
{
vector = _mm_set_ps(i*1,i*2,i*3,i*4);
result = _mm_mul_ps(vector, avx_scalar);
ret = _mm_add_ps(ret, result);
}
return ret;
}
你好 Whosebug 社区
我遇到了以下挑战:在我的 C++ 应用程序中,我有一个非常复杂的(三次)循环,在其中,在所有深度,我执行以下操作:
- 计算 4 个浮点值
- 将所有 4 个值乘以一个常数
- 将浮点数转换为整数
此代码将 运行 每个循环中有数千次迭代(导致数十亿次操作),我想让它尽可能快,所以我试图利用 SSE 处理器指令.
在尝试手动优化代码时,我遇到了以下障碍:每次我到达将所有值乘以一个常数的部分时,该常数都必须加载到 XMM 寄存器。我的想法是保留一个寄存器(并禁止编译器使用它),一次加载值,然后用那个特定的寄存器对乘法进行硬编码,但是我找不到正确的方法来做到这一点。
顺便问一下,有人可以向我解释一下,为什么这段代码:
vmovaps .LC0(%rip), %xmm1
movl 00000000, %eax
vmovaps .LC1(%rip), %xmm0
.p2align 4,,10
.p2align 3
.L2:
#APP
# 26 "sse.cpp" 1
.intel_syntax noprefix;
mulps %xmm1,%xmm0;
.att_syntax prefix;
# 0 "" 2
#NO_APP
subl , %eax
jne .L2
性能比下面的更差(实际 0m1.656s vs 实际 0m1.618s):
vmovaps .LC0(%rip), %xmm1
movl 00000000, %eax
vmovaps .LC1(%rip), %xmm0
.p2align 4,,10
.p2align 3
.L2:
vmulps %xmm0, %xmm1, %xmm1
subl , %eax
jne .L2
(不同之处在于,我在 gcc [第一个片段] 和旧版 SSE 指令中使用 intel 语法以实现兼容性,而 gcc 使用 AVX 向量自动生成版本 [第二个片段])
请注意,您需要更具体地说明编译方式,并可能提供最少的示例。我知道这可能不是最佳答案,但我认为它已经足够好了。它变长了,但这是因为代码。
下面工作的底线是留给编译器并使用适当的编译器标志应该是安全的。在底部我举了一个如何使用局部寄存器变量的例子,但它可能不会很有用(它很容易被忽略)。您可以使用全局寄存器变量,但它不会产生任何好的结果,因此不鼓励。
我的 set-up 是 Intel(R) Core(TM) i7-4770 CPU
、gcc version 4.9.2
和 clang version 3.5.0
。下面的代码确实将 avx_scalar
存储在具有 -O1
及更高版本的 xmm
寄存器中。没有或 -O0
他们没有。生成程序集的代码是:
[clang++|g++] -march=native -S -Ox ./sse.cpp
,
其中 x
是优化级别。
有趣的是,在我测试的任何情况下,-march=archive
两个编译器都决定使用 SSE4.1 版本而不是旧版 SSE,即使我在代码本身中使用了旧版 SSE 内在函数。这个不错。
我还使用 SSE4.1 header smmintrin.h
进行了测试。如果没有标志,gcc 使用旧版 SSE 并且 clang 无法使用 error: "SSE4.1 instruction set not enabled"
进行编译。使用 xmmintrin.h
这是遗留的 SSE header,两个编译器都在存在标志的情况下生成 AVX 版本,而在没有标志的情况下生成遗留版本。
测试码avx.cpp
:
extern "C"
{
#include <smmintrin.h>
}
const float scalar = 3.14;
const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 vector;
__m128 its_me(){
__m128 ret;
__m128 result;
for(int i = 0; i < 1000; ++i)
{
vector = _mm_set_ps(i*1,i*2,i*3,i*4);
result = _mm_mul_ps(vector, avx_scalar);
ret = _mm_add_ps(ret, result);
}
return ret;
}
g++ -march=native -S -O2 ./avx.cpp
的相关部分:
.LFB639:
.cfi_startproc
vmovaps _ZL10avx_scalar(%rip), %xmm5
xorl %edx, %edx
.p2align 4,,10
.p2align 3
.L2:
leal (%rdx,%rdx), %ecx
vxorps %xmm2, %xmm2, %xmm2
vxorps %xmm1, %xmm1, %xmm1
vxorps %xmm3, %xmm3, %xmm3
leal 0(,%rdx,4), %eax
vcvtsi2ss %ecx, %xmm3, %xmm3
vxorps %xmm4, %xmm4, %xmm4
vcvtsi2ss %eax, %xmm2, %xmm2
leal (%rcx,%rdx), %eax
vcvtsi2ss %edx, %xmm4, %xmm4
addl , %edx
vcvtsi2ss %eax, %xmm1, %xmm1
vunpcklps %xmm4, %xmm3, %xmm3
vunpcklps %xmm1, %xmm2, %xmm1
vmovlhps %xmm3, %xmm1, %xmm1
vmulps %xmm5, %xmm1, %xmm2
vaddps %xmm2, %xmm0, %xmm0
cmpl 00, %edx
jne .L2
vmovaps %xmm1, vector(%rip)
ret
.cfi_endproc
和clang++ -march=native -S -O2 ./avx.cpp
:
# BB#0:
xorl %eax, %eax
movl , %ecx
movl , %edx
vmovaps _ZL10avx_scalar(%rip), %xmm1
xorl %esi, %esi
# implicit-def: XMM0
.align 16, 0x90
.LBB0_1: # =>This Inner Loop Header: Depth=1
leal -2(%rdx), %r8d
leal -4(%rcx), %edi
vmovd %edi, %xmm2
vpinsrd , %eax, %xmm2, %xmm2
vpinsrd , %r8d, %xmm2, %xmm2
vpinsrd , %esi, %xmm2, %xmm2
vcvtdq2ps %xmm2, %xmm2
vmulps %xmm1, %xmm2, %xmm2
vaddps %xmm2, %xmm0, %xmm0
leal 1(%rsi), %r8d
leal 3(%rax), %edi
vmovd %ecx, %xmm2
vpinsrd , %edi, %xmm2, %xmm2
vpinsrd , %edx, %xmm2, %xmm2
vpinsrd , %r8d, %xmm2, %xmm2
vcvtdq2ps %xmm2, %xmm2
vmulps %xmm1, %xmm2, %xmm3
vaddps %xmm3, %xmm0, %xmm0
addl , %esi
addl , %eax
addl , %ecx
addl , %edx
cmpl 00, %esi # imm = 0x3E8
jne .LBB0_1
# BB#2:
vmovaps %xmm2, vector(%rip)
retq
仅作记录,您可以手动将局部变量放入寄存器,但 clang 完全忽略并且 gcc -01
和 above.I 鼓励在 g++ -march=native -S -Ox ./avx.cpp
的输出中寻找 xmm13
,下面的代码具有不同的 x
值(假设您的 cpu 上至少有 13 个 xmm 寄存器):
extern "C"
{
#include <xmmintrin.h>
}
const float scalar = 3.14;
__m128 its_me(){
__m128 vector;
register __m128 avx_scalar asm ("xmm13") = _mm_set1_ps(scalar); // that's how you do it in gcc.
//const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 ret;
__m128 result;
for(int i = 0; i < 1000; ++i)
{
vector = _mm_set_ps(i*1,i*2,i*3,i*4);
result = _mm_mul_ps(vector, avx_scalar);
ret = _mm_add_ps(ret, result);
}
return ret;
}