使用 Intel 编译器的 Windows 和 Linux 之间的性能差异:查看程序集
Performance difference between Windows and Linux using Intel compiler: looking at the assembly
我是 运行 Windows 和 Linux (x86-64) 上的程序。它是使用相同的编译器(Intel Parallel Studio XE 2017)和相同的选项编译的,Windows 版本比 Linux 版本快 3 倍。罪魁祸首是对 std::erf
的调用,它在英特尔数学库中解决了两种情况(默认情况下,它在 Windows 上动态链接,在 Linux 上静态链接,但在 Linux给出相同的性能)。
这是一个重现问题的简单程序。
#include <cmath>
#include <cstdio>
int main() {
int n = 100000000;
float sum = 1.0f;
for (int k = 0; k < n; k++) {
sum += std::erf(sum);
}
std::printf("%7.2f\n", sum);
}
当我使用 vTune 分析这个程序时,我发现 Windows 和 Linux 版本的程序集有点不同。这是 Windows
上的调用站点(循环)
Block 3:
"vmovaps xmm0, xmm6"
call 0x1400023e0 <erff>
Block 4:
inc ebx
"vaddss xmm6, xmm6, xmm0"
"cmp ebx, 0x5f5e100"
jl 0x14000103f <Block 3>
并且在 Windows
上调用的 erf 函数的开头
Block 1:
push rbp
"sub rsp, 0x40"
"lea rbp, ptr [rsp+0x20]"
"lea rcx, ptr [rip-0xa6c81]"
"movd edx, xmm0"
"movups xmmword ptr [rbp+0x10], xmm6"
"movss dword ptr [rbp+0x30], xmm0"
"mov eax, edx"
"and edx, 0x7fffffff"
"and eax, 0x80000000"
"add eax, 0x3f800000"
"mov dword ptr [rbp], eax"
"movss xmm6, dword ptr [rbp]"
"cmp edx, 0x7f800000"
...
在Linux,代码有点不同。调用站点是:
Block 3
"vmovaps %xmm1, %xmm0"
"vmovssl %xmm1, (%rsp)"
callq 0x400bc0 <erff>
Block 4
inc %r12d
"vmovssl (%rsp), %xmm1"
"vaddss %xmm0, %xmm1, %xmm1" <-------- hotspot here
"cmp [=15=]x5f5e100, %r12d"
jl 0x400b6b <Block 3>
被调用函数(erf)的开头是:
"movd %xmm0, %edx"
"movssl %xmm0, -0x10(%rsp)" <-------- hotspot here
"mov %edx, %eax"
"and [=16=]x7fffffff, %edx"
"and [=16=]x80000000, %eax"
"add [=16=]x3f800000, %eax"
"movl %eax, -0x18(%rsp)"
"movssl -0x18(%rsp), %xmm0"
"cmp [=16=]x7f800000, %edx"
jnl 0x400dac <Block 8>
...
我已经在 Linux.
上展示了时间丢失的 2 个点
有没有人了解汇编足以向我解释这两个代码的区别以及为什么 Linux 版本慢 3 倍?
在这两种情况下,根据 Windows 和 GNU/Linux.[=16 上各自的调用约定,参数和结果 仅在 中传递到寄存器中=]
在GNU/Linux变体中,xmm1
用于累加总和。由于它是一个调用破坏寄存器(a.k.a 调用者保存),它在每次调用时存储(并恢复)在调用者的堆栈帧中。
在Windows变体中,xmm6
用于累加总和。此寄存器在 Windows 调用约定( 但在 GNU/Linux 一个 中不保存)。
因此,总而言之,GNU/Linux 版本 saves/restores xmm0
(在被调用方[1]中)和 xmm1
(在调用方中),而Windows 版本 saves/restores 仅 xmm6
(在被调用方中)。
[1] 需要查看 std::errf
找出原因。
使用 Visual Studio 2015,Win 7 64 位模式,我发现以下代码用于 erf() 中使用的一些路径(未显示所有路径)。每条路径涉及最多 8 个(对于其他路径可能更多)从内存读取的常量,因此保存寄存器的单个存储/加载似乎不太可能导致 Linux 和 Windows 之间的 3 倍速度差异。至于保存/恢复,此示例保存和恢复 xmm6 和 xmm7。至于时间,原来post中的程序在Intel 3770K (3.5ghz cpu) (VS2015 / Win 7 64 bit)上大约需要0.86秒。更新 - 我后来确定在程序 10^8 循环(每个循环约 3 纳秒)的情况下,xmm 寄存器的保存和恢复开销约为 0.03 秒。
000007FEEE25CF90 mov rax,rsp
000007FEEE25CF93 movss dword ptr [rax+8],xmm0
000007FEEE25CF98 sub rsp,48h
000007FEEE25CF9C movaps xmmword ptr [rax-18h],xmm6
000007FEEE25CFA0 lea rcx,[rax+8]
000007FEEE25CFA4 movaps xmmword ptr [rax-28h],xmm7
000007FEEE25CFA8 movaps xmm6,xmm0
000007FEEE25CFAB call 000007FEEE266370
000007FEEE25CFB0 movsx ecx,ax
000007FEEE25CFB3 test ecx,ecx
000007FEEE25CFB5 je 000007FEEE25D0AF
000007FEEE25CFBB sub ecx,1
000007FEEE25CFBE je 000007FEEE25D08F
000007FEEE25CFC4 cmp ecx,1
000007FEEE25CFC7 je 000007FEEE25D0AF
000007FEEE25CFCD xorps xmm7,xmm7
000007FEEE25CFD0 movaps xmm2,xmm6
000007FEEE25CFD3 comiss xmm7,xmm6
000007FEEE25CFD6 jbe 000007FEEE25CFDF
000007FEEE25CFD8 xorps xmm2,xmmword ptr [7FEEE2991E0h]
000007FEEE25CFDF movss xmm0,dword ptr [7FEEE298E50h]
000007FEEE25CFE7 comiss xmm0,xmm2
000007FEEE25CFEA jbe 000007FEEE25D053
000007FEEE25CFEC movaps xmm2,xmm6
000007FEEE25CFEF mulss xmm2,xmm6
000007FEEE25CFF3 movaps xmm0,xmm2
000007FEEE25CFF6 movaps xmm1,xmm2
000007FEEE25CFF9 mulss xmm0,dword ptr [7FEEE298B34h]
000007FEEE25D001 mulss xmm1,dword ptr [7FEEE298B5Ch]
000007FEEE25D009 addss xmm0,dword ptr [7FEEE298B8Ch]
000007FEEE25D011 addss xmm1,dword ptr [7FEEE298B9Ch]
000007FEEE25D019 mulss xmm0,xmm2
000007FEEE25D01D mulss xmm1,xmm2
000007FEEE25D021 addss xmm0,dword ptr [7FEEE298BB8h]
000007FEEE25D029 addss xmm1,dword ptr [7FEEE298C88h]
000007FEEE25D031 mulss xmm0,xmm2
000007FEEE25D035 mulss xmm1,xmm2
000007FEEE25D039 addss xmm0,dword ptr [7FEEE298DC8h]
000007FEEE25D041 addss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D049 divss xmm0,xmm1
000007FEEE25D04D mulss xmm0,xmm6
000007FEEE25D051 jmp 000007FEEE25D0B2
000007FEEE25D053 movss xmm1,dword ptr [7FEEE299028h]
000007FEEE25D05B comiss xmm1,xmm2
000007FEEE25D05E jbe 000007FEEE25D076
000007FEEE25D060 movaps xmm0,xmm2
000007FEEE25D063 call 000007FEEE25CF04
000007FEEE25D068 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D070 subss xmm1,xmm0
000007FEEE25D074 jmp 000007FEEE25D07E
000007FEEE25D076 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D07E comiss xmm7,xmm6
000007FEEE25D081 jbe 000007FEEE25D08A
000007FEEE25D083 xorps xmm1,xmmword ptr [7FEEE2991E0h]
000007FEEE25D08A movaps xmm0,xmm1
000007FEEE25D08D jmp 000007FEEE25D0B2
000007FEEE25D08F mov eax,8000h
000007FEEE25D094 test word ptr [rsp+52h],ax
000007FEEE25D099 je 000007FEEE25D0A5
000007FEEE25D09B movss xmm0,dword ptr [7FEEE2990DCh]
000007FEEE25D0A3 jmp 000007FEEE25D0B2
000007FEEE25D0A5 movss xmm0,dword ptr [7FEEE298D8Ch]
000007FEEE25D0AD jmp 000007FEEE25D0B2
000007FEEE25D0AF movaps xmm0,xmm6
000007FEEE25D0B2 movaps xmm6,xmmword ptr [rsp+30h]
000007FEEE25D0B7 movaps xmm7,xmmword ptr [rsp+20h]
000007FEEE25D0BC add rsp,48h
000007FEEE25D0C0 ret
我是 运行 Windows 和 Linux (x86-64) 上的程序。它是使用相同的编译器(Intel Parallel Studio XE 2017)和相同的选项编译的,Windows 版本比 Linux 版本快 3 倍。罪魁祸首是对 std::erf
的调用,它在英特尔数学库中解决了两种情况(默认情况下,它在 Windows 上动态链接,在 Linux 上静态链接,但在 Linux给出相同的性能)。
这是一个重现问题的简单程序。
#include <cmath>
#include <cstdio>
int main() {
int n = 100000000;
float sum = 1.0f;
for (int k = 0; k < n; k++) {
sum += std::erf(sum);
}
std::printf("%7.2f\n", sum);
}
当我使用 vTune 分析这个程序时,我发现 Windows 和 Linux 版本的程序集有点不同。这是 Windows
上的调用站点(循环)Block 3:
"vmovaps xmm0, xmm6"
call 0x1400023e0 <erff>
Block 4:
inc ebx
"vaddss xmm6, xmm6, xmm0"
"cmp ebx, 0x5f5e100"
jl 0x14000103f <Block 3>
并且在 Windows
上调用的 erf 函数的开头Block 1:
push rbp
"sub rsp, 0x40"
"lea rbp, ptr [rsp+0x20]"
"lea rcx, ptr [rip-0xa6c81]"
"movd edx, xmm0"
"movups xmmword ptr [rbp+0x10], xmm6"
"movss dword ptr [rbp+0x30], xmm0"
"mov eax, edx"
"and edx, 0x7fffffff"
"and eax, 0x80000000"
"add eax, 0x3f800000"
"mov dword ptr [rbp], eax"
"movss xmm6, dword ptr [rbp]"
"cmp edx, 0x7f800000"
...
在Linux,代码有点不同。调用站点是:
Block 3
"vmovaps %xmm1, %xmm0"
"vmovssl %xmm1, (%rsp)"
callq 0x400bc0 <erff>
Block 4
inc %r12d
"vmovssl (%rsp), %xmm1"
"vaddss %xmm0, %xmm1, %xmm1" <-------- hotspot here
"cmp [=15=]x5f5e100, %r12d"
jl 0x400b6b <Block 3>
被调用函数(erf)的开头是:
"movd %xmm0, %edx"
"movssl %xmm0, -0x10(%rsp)" <-------- hotspot here
"mov %edx, %eax"
"and [=16=]x7fffffff, %edx"
"and [=16=]x80000000, %eax"
"add [=16=]x3f800000, %eax"
"movl %eax, -0x18(%rsp)"
"movssl -0x18(%rsp), %xmm0"
"cmp [=16=]x7f800000, %edx"
jnl 0x400dac <Block 8>
...
我已经在 Linux.
上展示了时间丢失的 2 个点有没有人了解汇编足以向我解释这两个代码的区别以及为什么 Linux 版本慢 3 倍?
在这两种情况下,根据 Windows 和 GNU/Linux.[=16 上各自的调用约定,参数和结果 仅在 中传递到寄存器中=]
在GNU/Linux变体中,xmm1
用于累加总和。由于它是一个调用破坏寄存器(a.k.a 调用者保存),它在每次调用时存储(并恢复)在调用者的堆栈帧中。
在Windows变体中,xmm6
用于累加总和。此寄存器在 Windows 调用约定( 但在 GNU/Linux 一个 中不保存)。
因此,总而言之,GNU/Linux 版本 saves/restores xmm0
(在被调用方[1]中)和 xmm1
(在调用方中),而Windows 版本 saves/restores 仅 xmm6
(在被调用方中)。
[1] 需要查看 std::errf
找出原因。
使用 Visual Studio 2015,Win 7 64 位模式,我发现以下代码用于 erf() 中使用的一些路径(未显示所有路径)。每条路径涉及最多 8 个(对于其他路径可能更多)从内存读取的常量,因此保存寄存器的单个存储/加载似乎不太可能导致 Linux 和 Windows 之间的 3 倍速度差异。至于保存/恢复,此示例保存和恢复 xmm6 和 xmm7。至于时间,原来post中的程序在Intel 3770K (3.5ghz cpu) (VS2015 / Win 7 64 bit)上大约需要0.86秒。更新 - 我后来确定在程序 10^8 循环(每个循环约 3 纳秒)的情况下,xmm 寄存器的保存和恢复开销约为 0.03 秒。
000007FEEE25CF90 mov rax,rsp
000007FEEE25CF93 movss dword ptr [rax+8],xmm0
000007FEEE25CF98 sub rsp,48h
000007FEEE25CF9C movaps xmmword ptr [rax-18h],xmm6
000007FEEE25CFA0 lea rcx,[rax+8]
000007FEEE25CFA4 movaps xmmword ptr [rax-28h],xmm7
000007FEEE25CFA8 movaps xmm6,xmm0
000007FEEE25CFAB call 000007FEEE266370
000007FEEE25CFB0 movsx ecx,ax
000007FEEE25CFB3 test ecx,ecx
000007FEEE25CFB5 je 000007FEEE25D0AF
000007FEEE25CFBB sub ecx,1
000007FEEE25CFBE je 000007FEEE25D08F
000007FEEE25CFC4 cmp ecx,1
000007FEEE25CFC7 je 000007FEEE25D0AF
000007FEEE25CFCD xorps xmm7,xmm7
000007FEEE25CFD0 movaps xmm2,xmm6
000007FEEE25CFD3 comiss xmm7,xmm6
000007FEEE25CFD6 jbe 000007FEEE25CFDF
000007FEEE25CFD8 xorps xmm2,xmmword ptr [7FEEE2991E0h]
000007FEEE25CFDF movss xmm0,dword ptr [7FEEE298E50h]
000007FEEE25CFE7 comiss xmm0,xmm2
000007FEEE25CFEA jbe 000007FEEE25D053
000007FEEE25CFEC movaps xmm2,xmm6
000007FEEE25CFEF mulss xmm2,xmm6
000007FEEE25CFF3 movaps xmm0,xmm2
000007FEEE25CFF6 movaps xmm1,xmm2
000007FEEE25CFF9 mulss xmm0,dword ptr [7FEEE298B34h]
000007FEEE25D001 mulss xmm1,dword ptr [7FEEE298B5Ch]
000007FEEE25D009 addss xmm0,dword ptr [7FEEE298B8Ch]
000007FEEE25D011 addss xmm1,dword ptr [7FEEE298B9Ch]
000007FEEE25D019 mulss xmm0,xmm2
000007FEEE25D01D mulss xmm1,xmm2
000007FEEE25D021 addss xmm0,dword ptr [7FEEE298BB8h]
000007FEEE25D029 addss xmm1,dword ptr [7FEEE298C88h]
000007FEEE25D031 mulss xmm0,xmm2
000007FEEE25D035 mulss xmm1,xmm2
000007FEEE25D039 addss xmm0,dword ptr [7FEEE298DC8h]
000007FEEE25D041 addss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D049 divss xmm0,xmm1
000007FEEE25D04D mulss xmm0,xmm6
000007FEEE25D051 jmp 000007FEEE25D0B2
000007FEEE25D053 movss xmm1,dword ptr [7FEEE299028h]
000007FEEE25D05B comiss xmm1,xmm2
000007FEEE25D05E jbe 000007FEEE25D076
000007FEEE25D060 movaps xmm0,xmm2
000007FEEE25D063 call 000007FEEE25CF04
000007FEEE25D068 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D070 subss xmm1,xmm0
000007FEEE25D074 jmp 000007FEEE25D07E
000007FEEE25D076 movss xmm1,dword ptr [7FEEE298D8Ch]
000007FEEE25D07E comiss xmm7,xmm6
000007FEEE25D081 jbe 000007FEEE25D08A
000007FEEE25D083 xorps xmm1,xmmword ptr [7FEEE2991E0h]
000007FEEE25D08A movaps xmm0,xmm1
000007FEEE25D08D jmp 000007FEEE25D0B2
000007FEEE25D08F mov eax,8000h
000007FEEE25D094 test word ptr [rsp+52h],ax
000007FEEE25D099 je 000007FEEE25D0A5
000007FEEE25D09B movss xmm0,dword ptr [7FEEE2990DCh]
000007FEEE25D0A3 jmp 000007FEEE25D0B2
000007FEEE25D0A5 movss xmm0,dword ptr [7FEEE298D8Ch]
000007FEEE25D0AD jmp 000007FEEE25D0B2
000007FEEE25D0AF movaps xmm0,xmm6
000007FEEE25D0B2 movaps xmm6,xmmword ptr [rsp+30h]
000007FEEE25D0B7 movaps xmm7,xmmword ptr [rsp+20h]
000007FEEE25D0BC add rsp,48h
000007FEEE25D0C0 ret