不同架构的集群应该指定哪个AVX和march?

Which AVX and march should be specified on a cluster with different architectures?

我目前正在尝试使用 Intel 编译器编译软件以在 HPC 集群上使用。我编译和准备计算的登录节点使用 Intel Xeon Gold 6148 Processors, while the compute nodes use either Haswell- (Intel Xeon E5-2660 v3 / Intel Xeon Processor E5-2680 v3) or Skylake-processors (Intel Xeon Gold 6138).

据我从上面的链接了解到,我的登录节点支持 Intel SSE4.2、Intel AVX、Intel AVX2 以及 Intel AVX-512,但我的计算节点仅支持 Intel AVX2 (Haswell)或英特尔 AVX-512 (Skylake)

如果我在登录节点上使用选项 -xHost 进行编译,它应该会自动使用可用的最高指令集。但是哪个最高呢?我如何确保我的程序以最佳性能在两个计算系统上运行?我必须编译两个版本吗? 奖励问题:在这种情况下我必须指定哪个 -march

看看Function Multiversioning。虽然它不是您问题的完美解决方案,但它似乎是一个不错的选择...

由于您使用的是英特尔编译器,因此您可以使用其 "Automatic Processor Dispatch" 功能来创建 "fat" 通用 二进制文件,其中包含 SSE-compatible 、 AVX-compatible 等版本。因此,当您在仅支持 SSE 的机器上 运行 您的 "fat" 二进制文件时,只会执行二进制文件的 SSE 优化部分(代码路径)。当您在 AVX 机器上 运行 SAME "fat" 二进制文件时,您的二进制文件的 AVX 优化部分将被执行。这是一个非常强大但鲜为人知的功能。

您可以结合使用 -ax-x 英特尔编译器编译标志来启用它。 这个想法是,基本上你通过 -ax 指定最高的 ISA,通过 -x 指定默认/"lowest" ISA。

https://www.chpc.utah.edu/documentation/software/single-executable.php#submit

中简要描述了给定“-ax”胖二进制文件技术

更多详细信息可以在给定漂亮的箔纸的第 9 页找到:https://www.alcf.anl.gov/files/ken_intel_compiler_optimization.pdf


最后,我要提一下,在您的描述中,您有点混淆了 ISA 的关系。带有 AVX512 的英特尔 x86 处理器 - 将始终支持 AVX2。 AVX2 机器将始终支持 SSE。 super oversimplified 对此的解释:AVX512 有点像 AVX/AVX2 的超集,而 AVX/AVX2 可以看作是 SSE 的超集(事实上它是不是,但 SSE 始终在 AVX 机器上可用,反之亦然)。

无论您提到的是什么情况,Haswell(AVX2 机器,所以 SSE 都在板上,但这里自然没有 AVX512)和 Skylake(AVX512 机器,所以 AVX2 和 SSE 都在板上)。因此,您可能需要 -axCORE-AVX512 -xCORE-AVX2 之类的东西(在您的列表中,AVX2 以下没有机器 - 即没有 SSE 或 AVX(1) 机器)。你好像只有Skylake服务器和Haswell服务器。