检查所有 __m128i 组件是否为 0 的最有效方法 [使用 <= SSE4.1 内在函数]
Most efficient way to check if all __m128i components are 0 [using <= SSE4.1 intrinsics]
我正在使用 SSE 内在函数来确定矩形(由四个 int32
值定义)是否已更改:
__m128i oldRect; // contains old left, top, right, bottom packed to 128 bits
__m128i newRect; // contains new left, top, right, bottom packed to 128 bits
__m128i xor = _mm_xor_si128(oldRect, newRect);
此时,如果矩形没有改变,得到的 xor
值将全部为零。那么最有效的确定方法是什么?
目前我正在这样做:
if (xor.m128i_u64[0] | xor.m128i_u64[1])
{
// rectangle changed
}
但我认为有更聪明的方法(可能使用一些我还没有找到的 SSE 指令)。
我的目标是 x64 上的 SSE4.1,我在 Visual Studio 2013 年编写 C++。
编辑:这个问题与 Is an __m128i variable zero? 不太一样,因为它指定了 "on SSE-2-and-earlier processors"(尽管 Antonio 确实添加了一个答案 "for completeness" 解决了 4.1 一些问题此问题发布和回答后的时间)。
您可以通过 _mm_testz_si128 内部函数 (SSE4.1) 使用 TEST 指令,如下所示:
#include "smmintrin.h" // SSE4.1 header
if (!_mm_testz_si128(xor, xor))
{
// rectangle has changed
}
请注意,如果两个参数的按位 AND
为零,则 _mm_testz_si128
returns 1。
讽刺的是,在某些情况下,SSE 4.1 的 ptest
指令可能比 SSE2 的 pmovmskb
指令慢。我建议简单地使用:
__m128i cmp = _mm_cmpeq_epi32(oldRect, newRect);
if (_mm_movemask_epi8(cmp) != 0xFFFF)
//registers are different
请注意,如果您确实需要 xor
值,则必须单独计算。
对于像 Ivy Bridge 这样的英特尔处理器,PaulR 的 xor
和 _mm_testz_si128
版本转换为 4 微指令,而没有计算的建议版本 xor
转换为 3 微指令(另请参见this thread)。这可能会提高我的版本的吞吐量。
我正在使用 SSE 内在函数来确定矩形(由四个 int32
值定义)是否已更改:
__m128i oldRect; // contains old left, top, right, bottom packed to 128 bits
__m128i newRect; // contains new left, top, right, bottom packed to 128 bits
__m128i xor = _mm_xor_si128(oldRect, newRect);
此时,如果矩形没有改变,得到的 xor
值将全部为零。那么最有效的确定方法是什么?
目前我正在这样做:
if (xor.m128i_u64[0] | xor.m128i_u64[1])
{
// rectangle changed
}
但我认为有更聪明的方法(可能使用一些我还没有找到的 SSE 指令)。
我的目标是 x64 上的 SSE4.1,我在 Visual Studio 2013 年编写 C++。
编辑:这个问题与 Is an __m128i variable zero? 不太一样,因为它指定了 "on SSE-2-and-earlier processors"(尽管 Antonio 确实添加了一个答案 "for completeness" 解决了 4.1 一些问题此问题发布和回答后的时间)。
您可以通过 _mm_testz_si128 内部函数 (SSE4.1) 使用 TEST 指令,如下所示:
#include "smmintrin.h" // SSE4.1 header
if (!_mm_testz_si128(xor, xor))
{
// rectangle has changed
}
请注意,如果两个参数的按位 AND
为零,则 _mm_testz_si128
returns 1。
讽刺的是,在某些情况下,SSE 4.1 的 ptest
指令可能比 SSE2 的 pmovmskb
指令慢。我建议简单地使用:
__m128i cmp = _mm_cmpeq_epi32(oldRect, newRect);
if (_mm_movemask_epi8(cmp) != 0xFFFF)
//registers are different
请注意,如果您确实需要 xor
值,则必须单独计算。
对于像 Ivy Bridge 这样的英特尔处理器,PaulR 的 xor
和 _mm_testz_si128
版本转换为 4 微指令,而没有计算的建议版本 xor
转换为 3 微指令(另请参见this thread)。这可能会提高我的版本的吞吐量。