为什么向量化在此 for 循环中没有好处？

Question

我正在尝试矢量化这个 for 循环。使用 Rpass 标志后，我得到以下评论：

int someOuterVariable = 0;

for (unsigned int i = 7; i != -1; i--)
{
  array[someOuterVariable + i] -= 0.3 * anotherArray[i];
}

Remark:
The cost-model indicates that vectorization is not beneficial
the cost-model indicates that interleaving is not beneficial

我想明白这是什么意思。 “interleaving is not benificial”是否意味着数组索引不正确？

Answer 1

如果没有关于您的类型的更多详细信息，很难回答。但一般来说，开始一个循环会产生一些成本，向量化也意味着一些成本（例如移动数据 to/from SIMD 寄存器，确保数据正确对齐）

我猜测编译器告诉你这里的矢量化成本比没有它的运行8次迭代要大，所以它没有这样做.

尝试增加迭代次数，或者帮助编译器计算对齐等。

通常，除非数组项的类型完全符合 SIMD 向量的正确对齐方式，否则从“未知”偏移量（您所谓的 someOuterVariable）访问数组会阻止编译器编写高效的矢量化代码。

编辑：关于“交错”问题，如果不了解您的工具，很难猜测。但一般来说，interleaving通常意味着混合2个计算流，使得CPU的计算单元都忙。例如，如果您的 CPU 中有 2 个 ALU，并且程序正在执行：

c = a + b;
d = e * f;

编译器可以交错计算，以便同时进行加法和乘法（前提是您有 2 个 ALU 可用）。通常，这意味着计算时间稍长的乘法（例如 6 个周期）将在加法（例如 3 个周期）之前开始。如果编译器序列化计算，您将在仅 6 个周期而不是 9 个周期后获得这两个操作的结果。这只有在计算之间没有依赖关系时才有可能（如果 d 需要 c，则无法工作）。编译器对此非常谨慎，并且在您的示例中，如果它不能证明 array 和 anotherArray 没有别名，则不会应用此优化。

为什么向量化在此 for 循环中没有好处？

Why is vectorization not beneficial in this for loop?

c++

vectorization

llvm

clang

auto-vectorization