OpenMP 4 对齐选项?
OpenMP 4 aligned option?
我对 OpenMP 中新的对齐选项有疑问。这是在与 #pragma omp simd aligned(a:n)
一起使用的上下文中
假设我有一个整数数组,我使用 posix_memalign 分配了它,所以我知道该数组从 32 字节边界开始。现在假设我想对该数组中的每个值求平方。我可以说...
int* array = { some array of length len aligned to 32 bytes };
#pragma omp simd aligned(array:32)
for(int i = 0; i < len; i++)
array[i] *= array[i];
这是一个安全的假设吗?或者对齐是否也意味着我在数组中使用的大小数据类型 (int) 是 32 字节的倍数?有点像 gcc 中的 attribute((aligned(32)) 如何使类型的宽度至少为 32 字节。
为了确保我们相互理解,我们假设您的 array
确实是 256 位对齐的(相当于您的 32 字节对齐)。
那么,是的,你的#pragma omp simd aligned(array:32)
是安全的,不管数组的长度或数组类型的大小。唯一重要的是用于引用数组的 "pointer" 指向的地址。
编辑:我意识到我的回答虽然正确,但有点枯燥,因为只有我在回答,但没有任何 "official" 支持。所以这里有一些标准的摘录来支持我的回答:
[C/C++: The aligned clause declares that the object to which each
list item points is aligned to the number of bytes expressed in the
optional parameter of the aligned clause.]
The optional parameter of the aligned clause, alignment, must be a
constant positive integer expression. If no optional parameter is
specified, implementation-defined default alignments for SIMD
instructions on the target platforms are assumed.
[...]
[C: The type of list items appearing in the aligned clause must be
array or pointer.]
[C++: The type of list items appearing in the aligned clause must be
array, pointer, reference to array, or reference to pointer.]
如您所见,aligned
子句中使用的变量所指向或引用的数据类型没有任何假设。唯一的假设是指向的内存段的地址与可选参数或某些 "implementation-defined default alignments" 字节对齐(顺便说一句,强烈鼓励我始终提供此可选参数,因为我不知道这个实现是什么-定义的默认值可能是,更重要的是,我是否会确定我的数组确实以这种方式对齐)。
aligned(ptr:n)
告诉编译器 ptr
后面的数组从与 n
字节对齐的地址开始。这有助于编译器决定如何优化循环矢量化。由于许多向量单元要求向量加载和存储对齐,如果编译器无法在编译时推断数据的对齐,它必须生成 运行 时间代码来检查对齐并最终执行未对齐的部分使用标量指令循环(在迭代开始和结束时 space)。这些检查非常耗时,尤其是在数组长度较小的情况下。如果在编译时知道正确的对齐方式,编译器可以直接发出所需的标量操作。对于 AVX-512(Intel Xeon Phi),未对齐的加载和存储是使用掩码执行的,提供正确的对齐允许编译器根据需要直接发出掩码指令,而不是在 运行 时间计算掩码。
我对 OpenMP 中新的对齐选项有疑问。这是在与 #pragma omp simd aligned(a:n)
假设我有一个整数数组,我使用 posix_memalign 分配了它,所以我知道该数组从 32 字节边界开始。现在假设我想对该数组中的每个值求平方。我可以说...
int* array = { some array of length len aligned to 32 bytes };
#pragma omp simd aligned(array:32)
for(int i = 0; i < len; i++)
array[i] *= array[i];
这是一个安全的假设吗?或者对齐是否也意味着我在数组中使用的大小数据类型 (int) 是 32 字节的倍数?有点像 gcc 中的 attribute((aligned(32)) 如何使类型的宽度至少为 32 字节。
为了确保我们相互理解,我们假设您的 array
确实是 256 位对齐的(相当于您的 32 字节对齐)。
那么,是的,你的#pragma omp simd aligned(array:32)
是安全的,不管数组的长度或数组类型的大小。唯一重要的是用于引用数组的 "pointer" 指向的地址。
编辑:我意识到我的回答虽然正确,但有点枯燥,因为只有我在回答,但没有任何 "official" 支持。所以这里有一些标准的摘录来支持我的回答:
[C/C++: The aligned clause declares that the object to which each list item points is aligned to the number of bytes expressed in the optional parameter of the aligned clause.]
The optional parameter of the aligned clause, alignment, must be a constant positive integer expression. If no optional parameter is specified, implementation-defined default alignments for SIMD instructions on the target platforms are assumed.
[...]
[C: The type of list items appearing in the aligned clause must be array or pointer.]
[C++: The type of list items appearing in the aligned clause must be array, pointer, reference to array, or reference to pointer.]
如您所见,aligned
子句中使用的变量所指向或引用的数据类型没有任何假设。唯一的假设是指向的内存段的地址与可选参数或某些 "implementation-defined default alignments" 字节对齐(顺便说一句,强烈鼓励我始终提供此可选参数,因为我不知道这个实现是什么-定义的默认值可能是,更重要的是,我是否会确定我的数组确实以这种方式对齐)。
aligned(ptr:n)
告诉编译器 ptr
后面的数组从与 n
字节对齐的地址开始。这有助于编译器决定如何优化循环矢量化。由于许多向量单元要求向量加载和存储对齐,如果编译器无法在编译时推断数据的对齐,它必须生成 运行 时间代码来检查对齐并最终执行未对齐的部分使用标量指令循环(在迭代开始和结束时 space)。这些检查非常耗时,尤其是在数组长度较小的情况下。如果在编译时知道正确的对齐方式,编译器可以直接发出所需的标量操作。对于 AVX-512(Intel Xeon Phi),未对齐的加载和存储是使用掩码执行的,提供正确的对齐允许编译器根据需要直接发出掩码指令,而不是在 运行 时间计算掩码。