GNU C 原生向量:如何广播标量,如 x86 的 _mm_set1_epi16

GNU C native vectors: how to broadcast a scalar, like x86's _mm_set1_epi16

如何编写一个不依赖于 x86 set1 intrinsic 的可移植 GNU C builtin vectors 版本?

typedef uint16_t v8su __attribute__((vector_size(16)));

v8su set1_u16_x86(uint16_t scalar) {
    return (v8su)_mm_set1_epi16(scalar);   // cast needed for gcc
}

肯定有比

更好的方法
v8su set1_u16(uint16_t s) {
    return (v8su){s,s,s,s,  s,s,s,s};
}

我不想编写用于广播单个字节的 AVX2 版本!

即使是这部分的 gcc-only 或 clang-only 答案也会很有趣,对于您想要分配给变量而不是仅用作操作数的情况二元运算符(适用于 gcc,见下文)。


如果我想使用广播标量作为二元运算符的一个操作数,这适用于 gcc (as documented in the manual),但不适用于 clang:

v8su vecdiv10(v8su v) { return v / 10; }   // doesn't compile with clang

使用 clang,如果我只针对 x86 并且只使用原生矢量语法 to get the compiler to generate modular multiplicative inverse constants and instructions for me,我可以写:

v8su vecdiv_set1(v8su v) {
    return v / (v8su)_mm_set1_epi16(10);   // gcc needs the cast
}

但是如果我加宽向量(到 _mm256_set1_epi16),我必须更改内在函数,而不是通过在一个地方更改为 vector_size(32) 将整个代码转换为 AVX2(对于纯-不需要洗牌的垂直 SIMD)。它还违背了本机向量的部分目的,因为它不会为 ARM 或任何非 x86 目标编译。

丑陋的转换是必需的,因为 gcc 与 clang 不同,不认为 v8us {aka __vector(8) short unsigned int}__m128i {aka __vector(2) long long int} 兼容。

顺便说一句,所有这些都可以用 gcc 和 clang (see it on Godbolt) 编译成良好的 asm。 这只是一个如何写得优雅的问题,语法可读,不重复标量N次。例如v / 10 足够紧凑,甚至不需要将它放在自己的函数中。

使用 ICC 高效编译是一项奖励,但不是必需的。 GNU C 本机向量显然是 ICC 的事后想法,甚至 simple stuff like this doesn't compile efficientlyset1_u16 编译为 8 个标量存储和矢量加载,而不是 MOVD / VPBROADCASTW(启用 -xHOST,因为它不识别 -march=haswell,但 Godbolt 在支持 AVX2 的服务器上运行).纯粹转换 _mm_ 内在函数的结果是可以的,但是除法调用 SVML 函数!

可以使用两个观察结果为 GCC 和 Clang 找到通用的广播解决方案

  1. Clang's OpenCL vector extensions 和 GCC 的矢量扩展支持 scalar - vector 操作。
  2. x - 0 = x ()。

这是一个包含四个浮点数的向量的解决方案。

#if defined (__clang__)
typedef float v4sf __attribute__((ext_vector_type(4)));
#else
typedef float v4sf __attribute__ ((vector_size (16)));
#endif

v4sf broadcast4f(float x) {
  return x - (v4sf){};
}

https://godbolt.org/g/PXr3Xb

相同的通用解决方案可用于不同的向量。这是一个包含八个无符号短裤的向量的示例。

#if defined (__clang__)
typedef unsigned short v8su __attribute__((ext_vector_type(8)));
#else
typedef unsigned short v8su __attribute__((vector_size(16)));
#endif

v8su broadcast8us(short x) {
  return x - (v8su){};
}

ICC (17) 支持 GCC 向量扩展的子集,但不支持 vector + scalarvector*scalar,因此广播仍然需要内部函数。 MSVC 不支持任何向量 扩展。