了解 __m128i 标志的位对齐
Understanding bit alignment for an __m128i flag
我正在尝试了解 SSE strstr 的实现,一个特定的函数正在做一些我不太了解的事情,将 const unsigned char*
加载到 __m128i
中。该函数是 __m128i_strloadu
函数(取自此处:http://strstrsse.googlecode.com/svn-history/r135/trunk/strmatch/lib/strstrsse42.c):
static inline __m128i __m128i_strloadu (const unsigned char * p) {
int offset = ((size_t) p & (16 - 1));
if (offset && (int) ((size_t) p & 0xfff) > 0xff0) {
__m128i a = _mm_load_si128 ((__m128i *) (p - offset));
__m128i zero = _mm_setzero_si128 ();
// I don't understand what this movemask, in concert
// with the shift right comparison below, are accomplishing
int bmsk = _mm_movemask_epi8 (_mm_cmpeq_epi8 (a, zero));
if ((bmsk >> offset) != 0) {
return __m128i_shift_right(a, offset);
}
}
return _mm_loadu_si128 ((__m128i *) p);
}
我觉得这是一个简单的 16 位对齐操作,但我无法想象/如何/它正在发生。 movemask 比较在这里完成什么/它检查什么?
它正在测试字符串的末尾是否在这个块中,如果是,它会移出额外的字节和 returns。否则它会继续执行正常的未对齐加载,避免移位并包含 "more of this string" 而不是虚假零。
掩码是16字节块中字节为零的掩码。 bmsk >> offset
是表示请求字节的掩码部分(从 p
开始),额外的字节是由于对齐。
我正在尝试了解 SSE strstr 的实现,一个特定的函数正在做一些我不太了解的事情,将 const unsigned char*
加载到 __m128i
中。该函数是 __m128i_strloadu
函数(取自此处:http://strstrsse.googlecode.com/svn-history/r135/trunk/strmatch/lib/strstrsse42.c):
static inline __m128i __m128i_strloadu (const unsigned char * p) {
int offset = ((size_t) p & (16 - 1));
if (offset && (int) ((size_t) p & 0xfff) > 0xff0) {
__m128i a = _mm_load_si128 ((__m128i *) (p - offset));
__m128i zero = _mm_setzero_si128 ();
// I don't understand what this movemask, in concert
// with the shift right comparison below, are accomplishing
int bmsk = _mm_movemask_epi8 (_mm_cmpeq_epi8 (a, zero));
if ((bmsk >> offset) != 0) {
return __m128i_shift_right(a, offset);
}
}
return _mm_loadu_si128 ((__m128i *) p);
}
我觉得这是一个简单的 16 位对齐操作,但我无法想象/如何/它正在发生。 movemask 比较在这里完成什么/它检查什么?
它正在测试字符串的末尾是否在这个块中,如果是,它会移出额外的字节和 returns。否则它会继续执行正常的未对齐加载,避免移位并包含 "more of this string" 而不是虚假零。
掩码是16字节块中字节为零的掩码。 bmsk >> offset
是表示请求字节的掩码部分(从 p
开始),额外的字节是由于对齐。