OpenMP 4.0 中 "simd" 构造和 "for simd" 构造之间的区别

Question

OpenMP 4.0 引入了 SIMD 构造以利用 cpu 的 SIMD 指令。根据规范 http://www.openmp.org/mp-documents/OpenMP4.0.0.pdf，有两种结构可以使用 simd 对循环进行矢量化。一个是 "#pragma omp simd"，另一个是 "#pragma omp for simd"。根据规范，两者都用于向量化 for 循环。我也测试了，没有发现他们的区别。任何人都知道这两种构造之间是否有区别？

Answer 1

#pragma omp simd（SIMD 构造）指示 OpenMP 编译器在没有工作共享的情况下矢量化后面的循环，即不在多个线程（如果有）之间分配循环迭代。

#pragma omp for（循环构造）指示编译器执行以下循环，同时在当前组的线程之间分配工作。因此，循环构造仅在放置在并行区域的词法或动态范围内时才有用，例如

#pragma omp parallel
{
   ...
   #pragma omp for
   for (i = 0; i < 100; i++) { ... }
   ...
}

#pragma omp for simd（也称为循环 SIMD 构造）结合了上述两种构造，即它既将迭代 space 分配给团队中的线程，又进一步向量化了每个线程执行的部分循环.如果不在并行区域的范围内使用，for simd 结构等同于 simd 结构。

可以将循环 SIMD 构造与 parallel 构造结合起来：

#pragma omp parallel for simd
for (i = 0; i < 100; i++) { ... }

这个组合构造创建一个并行区域，在线程之间分配循环的迭代，并对部分循环进行向量化。

请注意，有时向量化和多线程在性能方面并不正交。例如，如果循环受内存限制，那么单独使用矢量化和多线程可能会导致可用内存带宽耗尽，将它们组合起来不会带来任何进一步的加速。

此外，在比较 #pragma omp simd 和 #pragma omp [parallel] for simd 的加速比时，请记住，对于相同数量的 "multiplicity"，单独使用多线程通常比矢量化提供更好的加速比，即四路 SIMD 化循环可能（而且很可能会）比使用标量指令计算相同循环但分为四个线程时执行得更慢。

OpenMP 4.0 中 "simd" 构造和 "for simd" 构造之间的区别

The difference between "simd" construct and "for simd" construct in OpenMP 4.0

simd

openmp