在 C++ Introsort 中手动展开循环运行不正确
Manual loop unrolling within a C++ Introsort Runs Incorrectly
我正在用 C++ 编写一个简单的就地 introsort,其中我试图在分区函数中手动展开一个循环以进行优化。我将在下面包含的程序可以编译,但无法正确排序随机列表。
这个程序正在为 RISC-V 架构编译,甚至在 -Ofast 下,(riscv-64-unknown-elf-gcc) gcc 似乎并没有自行展开循环,使手动检查每个循环以确保满足结束条件。我想 space 此检查以尝试最大化性能 - 据我了解,某些编译器默认情况下最终会这样做。
我已经尝试将这个循环分成 5 个块,以便在我进一步研究之前证明这个概念(可能有多个部分,例如尝试通过 32 组然后尝试通过 16 组等),然后像以前一样处理数组的最后几个元素。展开前程序运行良好,但现在排序失败,我不确定如何继续。
这里是有问题的分区函数:
int* partition(int *startptr, int *endptr) {
int x = *endptr; // threshold
int *j, tmp, tmp2, *i = startptr - 1;
for (j = startptr; j+5 < endptr; j+=5) {
int pj = *j;
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp;
}
pj = j[1];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[2];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[3];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[4];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
}
j -= 5;
for (int *y = j; y < endptr; y++) {
int py = y[0];
if (py <= x) {
i += 1;
tmp = *i;
*i = py;
*y = tmp;
}
}
int *incrementedi = i + 1;
tmp = *incrementedi; //p[i+1]
tmp2 = *endptr; //p[end]
*endptr = tmp;
*incrementedi = tmp2;
return i + 1;
}
在程序结束时,我打印出数组并循环遍历,断言这是按预期升序排列的。输出似乎按小块排序,但并不完全准确,我不确定如何继续。谢谢!
编辑澄清:我正在通过查看 ...-gcc -S 的输出来验证循环实际上并未展开。分区函数很好地内联,但它仍会在每次迭代时执行检查。
值得注意的是,出于类似的原因,我尽可能地使用指针 - 当我们不必将数组索引转换为实际指针时,编译器不会优化我们获得的指令节省。
此示例代码有效,在 64 位模式(更多寄存器)下速度提高了大约 11%。编译器通过 tmp 优化了 pj[...] 的比较和条件副本以使用寄存器(并且循环通过寄存器以允许一些重叠)。
int * Partition(int *plo, int *phi)
{
int *pi = plo;
int *pj = plo;
int pvt = *phi;
int tmp;
int *ph8 = phi - 8;
for (pj = plo; pj < ph8; pj += 8)
{
if (pj[0] < pvt)
{
tmp = pj[0];
pj[0] = *pi;
*pi = tmp;
++pi;
}
if (pj[1] < pvt)
{
tmp = pj[1];
pj[1] = *pi;
*pi = tmp;
++pi;
}
if (pj[2] < pvt)
{
tmp = pj[2];
pj[2] = *pi;
*pi = tmp;
++pi;
}
if (pj[3] < pvt)
{
tmp = pj[3];
pj[3] = *pi;
*pi = tmp;
++pi;
}
if (pj[4] < pvt)
{
tmp = pj[4];
pj[4] = *pi;
*pi = tmp;
++pi;
}
if (pj[5] < pvt)
{
tmp = pj[5];
pj[5] = *pi;
*pi = tmp;
++pi;
}
if (pj[6] < pvt)
{
tmp = pj[6];
pj[6] = *pi;
*pi = tmp;
++pi;
}
if (pj[7] < pvt)
{
tmp = pj[7];
pj[7] = *pi;
*pi = tmp;
++pi;
}
}
for (; pj < phi; ++pj)
{
if (*pj < pvt)
{
tmp = *pj;
*pj = *pi;
*pi = tmp;
++pi;
}
}
tmp = *phi;
*phi = *pi;
*pi = tmp;
return pi;
}
void QuickSort(int *plo, int *phi)
{
int *p;
if (plo < phi)
{
p = Partition(plo, phi);
QuickSort(plo, p-1);
QuickSort(p+1, phi);
}
}
我正在用 C++ 编写一个简单的就地 introsort,其中我试图在分区函数中手动展开一个循环以进行优化。我将在下面包含的程序可以编译,但无法正确排序随机列表。
这个程序正在为 RISC-V 架构编译,甚至在 -Ofast 下,(riscv-64-unknown-elf-gcc) gcc 似乎并没有自行展开循环,使手动检查每个循环以确保满足结束条件。我想 space 此检查以尝试最大化性能 - 据我了解,某些编译器默认情况下最终会这样做。
我已经尝试将这个循环分成 5 个块,以便在我进一步研究之前证明这个概念(可能有多个部分,例如尝试通过 32 组然后尝试通过 16 组等),然后像以前一样处理数组的最后几个元素。展开前程序运行良好,但现在排序失败,我不确定如何继续。
这里是有问题的分区函数:
int* partition(int *startptr, int *endptr) {
int x = *endptr; // threshold
int *j, tmp, tmp2, *i = startptr - 1;
for (j = startptr; j+5 < endptr; j+=5) {
int pj = *j;
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp;
}
pj = j[1];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[2];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[3];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[4];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
}
j -= 5;
for (int *y = j; y < endptr; y++) {
int py = y[0];
if (py <= x) {
i += 1;
tmp = *i;
*i = py;
*y = tmp;
}
}
int *incrementedi = i + 1;
tmp = *incrementedi; //p[i+1]
tmp2 = *endptr; //p[end]
*endptr = tmp;
*incrementedi = tmp2;
return i + 1;
}
在程序结束时,我打印出数组并循环遍历,断言这是按预期升序排列的。输出似乎按小块排序,但并不完全准确,我不确定如何继续。谢谢!
编辑澄清:我正在通过查看 ...-gcc -S 的输出来验证循环实际上并未展开。分区函数很好地内联,但它仍会在每次迭代时执行检查。
值得注意的是,出于类似的原因,我尽可能地使用指针 - 当我们不必将数组索引转换为实际指针时,编译器不会优化我们获得的指令节省。
此示例代码有效,在 64 位模式(更多寄存器)下速度提高了大约 11%。编译器通过 tmp 优化了 pj[...] 的比较和条件副本以使用寄存器(并且循环通过寄存器以允许一些重叠)。
int * Partition(int *plo, int *phi)
{
int *pi = plo;
int *pj = plo;
int pvt = *phi;
int tmp;
int *ph8 = phi - 8;
for (pj = plo; pj < ph8; pj += 8)
{
if (pj[0] < pvt)
{
tmp = pj[0];
pj[0] = *pi;
*pi = tmp;
++pi;
}
if (pj[1] < pvt)
{
tmp = pj[1];
pj[1] = *pi;
*pi = tmp;
++pi;
}
if (pj[2] < pvt)
{
tmp = pj[2];
pj[2] = *pi;
*pi = tmp;
++pi;
}
if (pj[3] < pvt)
{
tmp = pj[3];
pj[3] = *pi;
*pi = tmp;
++pi;
}
if (pj[4] < pvt)
{
tmp = pj[4];
pj[4] = *pi;
*pi = tmp;
++pi;
}
if (pj[5] < pvt)
{
tmp = pj[5];
pj[5] = *pi;
*pi = tmp;
++pi;
}
if (pj[6] < pvt)
{
tmp = pj[6];
pj[6] = *pi;
*pi = tmp;
++pi;
}
if (pj[7] < pvt)
{
tmp = pj[7];
pj[7] = *pi;
*pi = tmp;
++pi;
}
}
for (; pj < phi; ++pj)
{
if (*pj < pvt)
{
tmp = *pj;
*pj = *pi;
*pi = tmp;
++pi;
}
}
tmp = *phi;
*phi = *pi;
*pi = tmp;
return pi;
}
void QuickSort(int *plo, int *phi)
{
int *p;
if (plo < phi)
{
p = Partition(plo, phi);
QuickSort(plo, p-1);
QuickSort(p+1, phi);
}
}