SIMD:实施 _mm256_max_epu64_ 和 _mm256_min_epu64_
SIMD: implement _mm256_max_epu64_ and _mm256_min_epu64_
我想问一个关于SIMD的问题。
我没有在我的 CPU 中得到 AVX512
但想要 _mm256_max_epu64.
我们如何用AVX2
实现这个功能?
在这里,我尝试拥有我的琐碎的一个。也许我们可以把它变成一个讨论并加以改进。
#define SIMD_INLINE inline __attribute__ ((always_inline))
SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
编辑 作为总结:
我们讨论了 __mm256
无符号比较 。我在上面给出了我的简单实现,只是遵循了非常基本的概念:一个 __m256i
相当于 4 个 uint64_t
或 4 个 float
,它们也组成了 256 位。
然后我们从@chtz 那里得到了答案,这使得 AVX
从 AVX
.
调用更多位编程函数更有意义
最后,由于 CLang
,这两个实现结果在同一个程序集中。 Assembly example from compiler explorer
添加了另一个 _mm256_min_epu64_
。它只是反映上面的 _mm256_max_epu64_
。让以后的使用更容易被搜索到。
SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
最简单的解决方案是将 _mm256_cmpgt_epi64
与混合相结合。
但是,如果您想要无符号最大值,则需要先从每个元素中减去 1<<63
(在比较之前,而不是在混合之前)。
没有 _mm256_blendv_epu64
指令,但可以使用 _mm256_blendv_epi8
因为掩码将设置在相关元素的每一位。另请注意,减去最高位可以通过稍快的 xor
:
来完成
__m256i pmax_epu64(__m256i a, __m256i b)
{
__m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
__m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
return _mm256_blendv_epi8(b,a,mask);
}
实际上,clang 几乎设法从您的代码中获得相同的指令:https://godbolt.org/z/afhdOa
它只使用 vblendvpd
而不是 vpblendvb
,这可能会引入延迟(有关详细信息,请参阅@PeterCordes 评论)。
通过一些位操作,您实际上可以节省符号位寄存器的设置。
如果两个操作数的符号匹配,则无符号比较给出相同的结果,如果它们不匹配,则给出相反的结果,即
unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)
如果您将 _mm256_blendv_pd
与一些转换作为 _mm256_blendv_epi64
一起使用,则可以使用此选项(因为现在只有最高位有效):
__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
return _mm256_castpd_si256(_mm256_blendv_pd(
_mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}
__m256i pmax_epu64_b(__m256i a, __m256i b)
{
__m256i opposite_sign = _mm256_xor_si256(a,b);
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}
仅供参考,有符号最大值当然只是:
__m256i pmax_epi64(__m256i a, __m256i b)
{
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi8(b,a,mask);
}
我想问一个关于SIMD的问题。
我没有在我的 CPU 中得到 AVX512
但想要 _mm256_max_epu64.
我们如何用AVX2
实现这个功能?
在这里,我尝试拥有我的琐碎的一个。也许我们可以把它变成一个讨论并加以改进。
#define SIMD_INLINE inline __attribute__ ((always_inline))
SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
编辑 作为总结:
我们讨论了 __mm256
无符号比较 。我在上面给出了我的简单实现,只是遵循了非常基本的概念:一个 __m256i
相当于 4 个 uint64_t
或 4 个 float
,它们也组成了 256 位。
然后我们从@chtz 那里得到了答案,这使得 AVX
从 AVX
.
最后,由于 CLang
,这两个实现结果在同一个程序集中。 Assembly example from compiler explorer
添加了另一个 _mm256_min_epu64_
。它只是反映上面的 _mm256_max_epu64_
。让以后的使用更容易被搜索到。
SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
最简单的解决方案是将 _mm256_cmpgt_epi64
与混合相结合。
但是,如果您想要无符号最大值,则需要先从每个元素中减去 1<<63
(在比较之前,而不是在混合之前)。
没有 _mm256_blendv_epu64
指令,但可以使用 _mm256_blendv_epi8
因为掩码将设置在相关元素的每一位。另请注意,减去最高位可以通过稍快的 xor
:
__m256i pmax_epu64(__m256i a, __m256i b)
{
__m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
__m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
return _mm256_blendv_epi8(b,a,mask);
}
实际上,clang 几乎设法从您的代码中获得相同的指令:https://godbolt.org/z/afhdOa
它只使用 vblendvpd
而不是 vpblendvb
,这可能会引入延迟(有关详细信息,请参阅@PeterCordes 评论)。
通过一些位操作,您实际上可以节省符号位寄存器的设置。 如果两个操作数的符号匹配,则无符号比较给出相同的结果,如果它们不匹配,则给出相反的结果,即
unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)
如果您将 _mm256_blendv_pd
与一些转换作为 _mm256_blendv_epi64
一起使用,则可以使用此选项(因为现在只有最高位有效):
__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
return _mm256_castpd_si256(_mm256_blendv_pd(
_mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}
__m256i pmax_epu64_b(__m256i a, __m256i b)
{
__m256i opposite_sign = _mm256_xor_si256(a,b);
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}
仅供参考,有符号最大值当然只是:
__m256i pmax_epi64(__m256i a, __m256i b)
{
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi8(b,a,mask);
}