字节数组置换 SSE 优化
byte array permute SSE optimization
我想使用 SSE 内在函数翻译这段代码。
我发现 pshufb
SSSE3 指令和类似的 __builtin_ia32_pshufb128(v128i, v128i)
GCC 内在指令可能与此代码一起使用。
该代码通过以特定方式交换数组中的字节,按索引 k
排列字节向量 s
。
void permutation(int k, std::vector<char> & s)
{
for(size_t j = 1; j < s.size(); ++j)
{
std::swap(s[k % (j + 1)], s[j]);
k = k / (j + 1);
}
}
我花了一个小时思考如何将代码翻译成 pshufb
。是否可以用单个 pshufb
置换 16 个字节,还是需要多条指令?足够好的解决方案一次只置换 16 个字节。
编辑:问题的进一步背景:我正在迭代 s
的所有可能排列。提前计算 k = 0, 1, 2,...
相同 s
的多个结果是可以的。但是我需要稍后重现第 k
-th 排列,最好是 O(1) 操作。
单次调用
请注意,您可以用 mixed radix 在位置记数系统中写下数字 k
,以便此表示中的每个数字都将为 [=15] 的多个连续值定义交换元素的索引=].
例如,对于长度为 12 的字符串,您可以将任何 k
写成一个三位数,基数为:
720 = 1*2*3*4*5*6 (0-th digit, lowest value)
504 = 7*8*9 (1-th digit)
1320 = 10*11*12 (2-th digit, highest value)
现在您可以为每个位置和该位置的每个数字值预先计算所有元素的累积排列,并将其保存在查找 table 中。然后你就可以通过一条指令进行多次交换。
这是一个示例(预计算将是最难的部分):
//to be precomputed:
__m128i mask0[ 720];
__m128i mask1[ 504];
__m128i mask2[1320];
__m128i permutation(int k, __m128i s) {
s = _mm_shuffle_epi8(s, mask0[k % 720]); k /= 720; //j = [1..5]
s = _mm_shuffle_epi8(s, mask1[k % 504]); k /= 504; //j = [6..8]
s = _mm_shuffle_epi8(s, mask2[k ]); //j = [9..11]
return s;
}
您可以改变基数分解,以便在步数和查找大小之间取得平衡 table。
注:除法运算很慢。仅使用编译时常量的除法,然后优化器会将它们转换为乘法。检查生成的程序集,确保其中没有除法指令。
很多电话
不幸的是,使用建议的解决方案,索引计算在大多数情况下仍然会耗费时间,请参阅 generated assembly。如果您一次处理 k
的多个连续值,则可以显着减少此开销。
优化解决方案的最简单方法是:分别迭代 k
的数字,而不是对 k
进行单个循环。然后索引计算就变得不必要了。此外,您可以重复使用部分计算结果。
__m128i s;// = ???
for (int k0 = 0; k0 < 720; k0++) {
__m128i s0 = _mm_shuffle_epi8(s, mask0[k0]);
for (int k1 = 0; k1 < 504; k1++) {
__m128i s1 = _mm_shuffle_epi8(s0, mask1[k1]);
for (int k2 = 0; k2 < 1320; k2+=4) {
//for k = (((k2+0) * BASE1) + k1) * BASE0 + k0:
__m128i sx0 = _mm_shuffle_epi8(s1, mask2[k2+0]);
//for k = (((k2+1) * BASE1) + k1) * BASE0 + k0:
__m128i sx1 = _mm_shuffle_epi8(s1, mask2[k2+1]);
//for k = (((k2+2) * BASE1) + k1) * BASE0 + k0:
__m128i sx2 = _mm_shuffle_epi8(s1, mask2[k2+2]);
//for k = (((k2+3) * BASE1) + k1) * BASE0 + k0:
__m128i sx3 = _mm_shuffle_epi8(s1, mask2[k2+3]);
// ... check four strings: sx0, sx1, sx2, sx3
}
}
}
这样你平均需要对每个排列进行一次洗牌(参见 assembly),这似乎接近完美。
代码和结果
这里是所有解的full working code。
请注意,查找 tables 的生成对于完全解释来说并不简单,相应的代码相当大(并且充满了令人讨厌的细节)。
在 Intel Core 2 Duo E4700 Allendale (2600MHz) 上的基准测试 运行 给出了结果:
2.605 s: original code (k < 12739451)
0.125 s: single-call fast code (k < 12739451)
4.822 s: single-call fast code (k < 479001600)
0.749 s: many-call fast code (k < 479001600)
因此单调用版本比原始代码快20倍,多调用版本约为6.5比单一调用版本快 1 倍。
我想使用 SSE 内在函数翻译这段代码。
我发现 pshufb
SSSE3 指令和类似的 __builtin_ia32_pshufb128(v128i, v128i)
GCC 内在指令可能与此代码一起使用。
该代码通过以特定方式交换数组中的字节,按索引 k
排列字节向量 s
。
void permutation(int k, std::vector<char> & s)
{
for(size_t j = 1; j < s.size(); ++j)
{
std::swap(s[k % (j + 1)], s[j]);
k = k / (j + 1);
}
}
我花了一个小时思考如何将代码翻译成 pshufb
。是否可以用单个 pshufb
置换 16 个字节,还是需要多条指令?足够好的解决方案一次只置换 16 个字节。
编辑:问题的进一步背景:我正在迭代 s
的所有可能排列。提前计算 k = 0, 1, 2,...
相同 s
的多个结果是可以的。但是我需要稍后重现第 k
-th 排列,最好是 O(1) 操作。
单次调用
请注意,您可以用 mixed radix 在位置记数系统中写下数字 k
,以便此表示中的每个数字都将为 [=15] 的多个连续值定义交换元素的索引=].
例如,对于长度为 12 的字符串,您可以将任何 k
写成一个三位数,基数为:
720 = 1*2*3*4*5*6 (0-th digit, lowest value)
504 = 7*8*9 (1-th digit)
1320 = 10*11*12 (2-th digit, highest value)
现在您可以为每个位置和该位置的每个数字值预先计算所有元素的累积排列,并将其保存在查找 table 中。然后你就可以通过一条指令进行多次交换。
这是一个示例(预计算将是最难的部分):
//to be precomputed:
__m128i mask0[ 720];
__m128i mask1[ 504];
__m128i mask2[1320];
__m128i permutation(int k, __m128i s) {
s = _mm_shuffle_epi8(s, mask0[k % 720]); k /= 720; //j = [1..5]
s = _mm_shuffle_epi8(s, mask1[k % 504]); k /= 504; //j = [6..8]
s = _mm_shuffle_epi8(s, mask2[k ]); //j = [9..11]
return s;
}
您可以改变基数分解,以便在步数和查找大小之间取得平衡 table。
注:除法运算很慢。仅使用编译时常量的除法,然后优化器会将它们转换为乘法。检查生成的程序集,确保其中没有除法指令。
很多电话
不幸的是,使用建议的解决方案,索引计算在大多数情况下仍然会耗费时间,请参阅 generated assembly。如果您一次处理 k
的多个连续值,则可以显着减少此开销。
优化解决方案的最简单方法是:分别迭代 k
的数字,而不是对 k
进行单个循环。然后索引计算就变得不必要了。此外,您可以重复使用部分计算结果。
__m128i s;// = ???
for (int k0 = 0; k0 < 720; k0++) {
__m128i s0 = _mm_shuffle_epi8(s, mask0[k0]);
for (int k1 = 0; k1 < 504; k1++) {
__m128i s1 = _mm_shuffle_epi8(s0, mask1[k1]);
for (int k2 = 0; k2 < 1320; k2+=4) {
//for k = (((k2+0) * BASE1) + k1) * BASE0 + k0:
__m128i sx0 = _mm_shuffle_epi8(s1, mask2[k2+0]);
//for k = (((k2+1) * BASE1) + k1) * BASE0 + k0:
__m128i sx1 = _mm_shuffle_epi8(s1, mask2[k2+1]);
//for k = (((k2+2) * BASE1) + k1) * BASE0 + k0:
__m128i sx2 = _mm_shuffle_epi8(s1, mask2[k2+2]);
//for k = (((k2+3) * BASE1) + k1) * BASE0 + k0:
__m128i sx3 = _mm_shuffle_epi8(s1, mask2[k2+3]);
// ... check four strings: sx0, sx1, sx2, sx3
}
}
}
这样你平均需要对每个排列进行一次洗牌(参见 assembly),这似乎接近完美。
代码和结果
这里是所有解的full working code。
请注意,查找 tables 的生成对于完全解释来说并不简单,相应的代码相当大(并且充满了令人讨厌的细节)。
在 Intel Core 2 Duo E4700 Allendale (2600MHz) 上的基准测试 运行 给出了结果:
2.605 s: original code (k < 12739451)
0.125 s: single-call fast code (k < 12739451)
4.822 s: single-call fast code (k < 479001600)
0.749 s: many-call fast code (k < 479001600)
因此单调用版本比原始代码快20倍,多调用版本约为6.5比单一调用版本快 1 倍。