连续迭代器上的 SIMD 指令
SIMD instructions on contiguous iterators
我有两个 v1
和 v2
类型 T
的向量,我想创建一个使用 SIMD 指令执行 v1 & v2
并将输出存储在向量中的函数out
。
理想情况下,我们会得到
first1 = v1.begin();
last1 = v1.end();
first2 = v2.begin();
d_first = out.begin();
while(distance(first1, last1) >= 64 / sizeof(T)) {
*d_first = _mm512_and_epi32(first1, first2);
first1 += 64 / sizeof(T)
first2 += 64 / sizeof(T)
d_first1 += 64 / sizeof(T)
}
auto and_op = [](T a, T b) {return a & b;};
std::transform(first1, last1, first2, d_first, and_op);
上面代码的第一个问题是它适用于 32 位整数。我不确定它是否期望这些对齐,如果是,那么如果 T
类似于 char
或 short int
.[=22=,则代码将无法工作]
第二个问题是我无法正确转换矢量迭代器。 _mm512_and_epi32
需要两个 __m512i
变量作为输入。每当我传递一个连续的迭代器或地址时,编译器总是抱怨说我传递的内容没有转换为“'__m512i'(8 的向量
'long long' 个值)"
我可以通过
让它工作
__m512i _a = _mm512_load_epi64(&*first1.base());
__m512i _b = _mm512_load_epi64(&*first2.base());'
__m512i _res = _mm512_and_epi64(_a, _b);
_mm512_store_epi64(&*d_first.base(), _res);
但我不确定 load/store 操作的成本如何,或者我是否可以跳过它们。
在大型连续数组上 运行 SIMD 指令的正确方法是什么?有没有办法让它适用于所有类型的连续数组,而不管它们的对齐方式如何?
通常,您只需从容器上的 .data()
获取一个指针,然后在数组上手动循环,就像 C 风格的数组一样。或者递增索引并执行 _mm512_loadu_si512(&vec[i])
。 (除非你为你的 std::vector
使用自定义对齐分配器,你不应该假设数据是对齐的。但是当前硬件上的 512 位向量从确保数据对齐中受益匪浅,比如可能是 20% vs. 256 位向量的几个 %。)
如果可以保证它是对底层数组元素的引用,而不是临时标量,那么您的解引用迭代器方法可能是安全的。
Load/store 内在函数并不比通过取消引用从内存中隐式加载更昂贵;您需要从 asm 的角度思考以了解成本。编译器必须发出向量加载指令(或 ALU 指令的内存源操作数)和存储指令,以生成对内存中的数据进行操作的汇编。 _mm_load_si128
与 _mm_loadu_si128
基本上只是为了将对齐信息传达给编译器并进行转换。并表达对其他 C 类型(如 memcpy)的严格别名和对齐安全访问。
我有两个 v1
和 v2
类型 T
的向量,我想创建一个使用 SIMD 指令执行 v1 & v2
并将输出存储在向量中的函数out
。
理想情况下,我们会得到
first1 = v1.begin();
last1 = v1.end();
first2 = v2.begin();
d_first = out.begin();
while(distance(first1, last1) >= 64 / sizeof(T)) {
*d_first = _mm512_and_epi32(first1, first2);
first1 += 64 / sizeof(T)
first2 += 64 / sizeof(T)
d_first1 += 64 / sizeof(T)
}
auto and_op = [](T a, T b) {return a & b;};
std::transform(first1, last1, first2, d_first, and_op);
上面代码的第一个问题是它适用于 32 位整数。我不确定它是否期望这些对齐,如果是,那么如果 T
类似于 char
或 short int
.[=22=,则代码将无法工作]
第二个问题是我无法正确转换矢量迭代器。 _mm512_and_epi32
需要两个 __m512i
变量作为输入。每当我传递一个连续的迭代器或地址时,编译器总是抱怨说我传递的内容没有转换为“'__m512i'(8 的向量
'long long' 个值)"
我可以通过
让它工作__m512i _a = _mm512_load_epi64(&*first1.base());
__m512i _b = _mm512_load_epi64(&*first2.base());'
__m512i _res = _mm512_and_epi64(_a, _b);
_mm512_store_epi64(&*d_first.base(), _res);
但我不确定 load/store 操作的成本如何,或者我是否可以跳过它们。
在大型连续数组上 运行 SIMD 指令的正确方法是什么?有没有办法让它适用于所有类型的连续数组,而不管它们的对齐方式如何?
通常,您只需从容器上的 .data()
获取一个指针,然后在数组上手动循环,就像 C 风格的数组一样。或者递增索引并执行 _mm512_loadu_si512(&vec[i])
。 (除非你为你的 std::vector
使用自定义对齐分配器,你不应该假设数据是对齐的。但是当前硬件上的 512 位向量从确保数据对齐中受益匪浅,比如可能是 20% vs. 256 位向量的几个 %。)
如果可以保证它是对底层数组元素的引用,而不是临时标量,那么您的解引用迭代器方法可能是安全的。
Load/store 内在函数并不比通过取消引用从内存中隐式加载更昂贵;您需要从 asm 的角度思考以了解成本。编译器必须发出向量加载指令(或 ALU 指令的内存源操作数)和存储指令,以生成对内存中的数据进行操作的汇编。 _mm_load_si128
与 _mm_loadu_si128
基本上只是为了将对齐信息传达给编译器并进行转换。并表达对其他 C 类型(如 memcpy)的严格别名和对齐安全访问。