std::pow 不同指数的行为非常不同
std::pow very different behavior for different exponents
我目前正在尝试优化一些代码,其中 50% 的时间花费在 std::pow()
上。我知道指数将 总是 是一个正整数,而基数将始终是区间 (0, 1) 中的双精度数。为了好玩,我写了一个函数:
inline double int_pow(double base, int exponent)
{
double out = 1.0;
for(int i = 0; i < exponent; i++)
{
out *= base;
}
return out;
}
我正在编译:
> g++ fast-pow.cpp -O3 --std=c++11
我在 (0, 1) 之间生成了 1 亿个双精度数,并比较了 (1) std::pow
(2) 我从上面自制的 int_pow
函数和 (3) 直接乘法的时间。这是我的计时程序的草图(这是一个非常快速的组合测试):
void time_me(int exp, size_t reps)
{
volatile double foo = 0.0;
double base = 0.0;
size_t i;
for (i = 0; i < reps; ++i)
{
base = ((double) rand() / (RAND_MAX)) + 1;
foo = pow(base, exp);
// foo = int_pow(base, exp);
// foo = base * base * base;
}
// check that the loop made it to the end
std::cout << foo << " " << i << std::endl;
}
int main()
{
std::clock_t start;
start = std::clock();
time_me(3, 1e8);
std::cout << "Time: " << (std::clock() - start) / (double)(CLOCKS_PER_SEC / 1000) << std::endl;
return 0;
}
以下是我观察到的各种指数的时间:
- 0:
std::pow
0.71s, int_pow
0.77s
- 2:
std::pow
1.31s, int_pow
0.80s, 直接mult 0.86s
- 3:
std::pow
6.9s (!!), int_pow
0.84s,直接mult 0.76 s
- 5: 类似于 3:
我的问题
因此,我的问题是:
- 为什么
std::pow
的性能对于大于 2 的幂似乎下降得如此严重?
- 当基数或指数类型提前已知时,是否存在更快的幂函数?
- 有什么我忽略的完全明显的东西吗?我即将通过直觉
std::pow
了解整数指数已知的情况,并且不想错过一些完全微不足道的事情。
谢谢!!
std::pow()
是一个通用函数,旨在接受任何一对浮点值。它执行昂贵的计算,应该被认为是一个慢函数。然而,很明显,很多人滥用它来求平方,因此 IBM Accurate Mathematical Library(由 glibc 使用)中 pow()
的实现针对该特定情况进行了优化:
sysdeps/ieee754/dbl-64/e_pow.c:
double
__ieee754_pow (double x, double y)
{
...
...
if (y == 1.0)
return x;
if (y == 2.0)
return x * x;
if (y == -1.0)
return 1.0 / x;
if (y == 0)
return 1.0;
如您所见,指数值 0、1 和 -1 也进行了特殊处理,但至少这些是具有数学意义的特殊情况,而平方只是一个具有统计意义的情况,否则不应该特殊处理)。 编辑:指数值 0
、1
、2
和 -1
是唯一允许表达 std::pow(x,n)
的值使用(更快的)算术运算而不会损失任何准确性。有关详细信息,请参阅 this answer。因此 2
的指数值不仅仅是一个具有统计意义的案例。 结束编辑
如果您想要一个快速替代 std::pow()
的指数非负整数值并且不关心轻微的精度损失,那么
- 对于足够小的指数值,请使用您的 int_pow();
- 否则,使用exponentiation by squaring approach。
必须通过仔细的基准测试找到用于在第一种方法和第二种方法之间进行选择的指数的边界值。
switch (n)
{
case 0:
return 1;
case 1:
return x;
case 8:
x*= x;
case 4:
x*= x;
case 2:
return x * x;
case 6:
x*= x;
case 3:
return x * x * x;
case 5:
y= x * x; return x * y * y;
case 7:
y= x * x * x; return x * y * y;
...
};
我目前正在尝试优化一些代码,其中 50% 的时间花费在 std::pow()
上。我知道指数将 总是 是一个正整数,而基数将始终是区间 (0, 1) 中的双精度数。为了好玩,我写了一个函数:
inline double int_pow(double base, int exponent)
{
double out = 1.0;
for(int i = 0; i < exponent; i++)
{
out *= base;
}
return out;
}
我正在编译:
> g++ fast-pow.cpp -O3 --std=c++11
我在 (0, 1) 之间生成了 1 亿个双精度数,并比较了 (1) std::pow
(2) 我从上面自制的 int_pow
函数和 (3) 直接乘法的时间。这是我的计时程序的草图(这是一个非常快速的组合测试):
void time_me(int exp, size_t reps)
{
volatile double foo = 0.0;
double base = 0.0;
size_t i;
for (i = 0; i < reps; ++i)
{
base = ((double) rand() / (RAND_MAX)) + 1;
foo = pow(base, exp);
// foo = int_pow(base, exp);
// foo = base * base * base;
}
// check that the loop made it to the end
std::cout << foo << " " << i << std::endl;
}
int main()
{
std::clock_t start;
start = std::clock();
time_me(3, 1e8);
std::cout << "Time: " << (std::clock() - start) / (double)(CLOCKS_PER_SEC / 1000) << std::endl;
return 0;
}
以下是我观察到的各种指数的时间:
- 0:
std::pow
0.71s,int_pow
0.77s - 2:
std::pow
1.31s,int_pow
0.80s, 直接mult 0.86s - 3:
std::pow
6.9s (!!),int_pow
0.84s,直接mult 0.76 s - 5: 类似于 3:
我的问题
因此,我的问题是:
- 为什么
std::pow
的性能对于大于 2 的幂似乎下降得如此严重? - 当基数或指数类型提前已知时,是否存在更快的幂函数?
- 有什么我忽略的完全明显的东西吗?我即将通过直觉
std::pow
了解整数指数已知的情况,并且不想错过一些完全微不足道的事情。
谢谢!!
std::pow()
是一个通用函数,旨在接受任何一对浮点值。它执行昂贵的计算,应该被认为是一个慢函数。然而,很明显,很多人滥用它来求平方,因此 IBM Accurate Mathematical Library(由 glibc 使用)中 pow()
的实现针对该特定情况进行了优化:
sysdeps/ieee754/dbl-64/e_pow.c:
double
__ieee754_pow (double x, double y)
{
...
...
if (y == 1.0)
return x;
if (y == 2.0)
return x * x;
if (y == -1.0)
return 1.0 / x;
if (y == 0)
return 1.0;
如您所见,指数值 0、1 和 -1 也进行了特殊处理,但至少这些是具有数学意义的特殊情况,而平方只是一个具有统计意义的情况,否则不应该特殊处理)。 编辑:指数值 0
、1
、2
和 -1
是唯一允许表达 std::pow(x,n)
的值使用(更快的)算术运算而不会损失任何准确性。有关详细信息,请参阅 this answer。因此 2
的指数值不仅仅是一个具有统计意义的案例。 结束编辑
如果您想要一个快速替代 std::pow()
的指数非负整数值并且不关心轻微的精度损失,那么
- 对于足够小的指数值,请使用您的 int_pow();
- 否则,使用exponentiation by squaring approach。
必须通过仔细的基准测试找到用于在第一种方法和第二种方法之间进行选择的指数的边界值。
switch (n)
{
case 0:
return 1;
case 1:
return x;
case 8:
x*= x;
case 4:
x*= x;
case 2:
return x * x;
case 6:
x*= x;
case 3:
return x * x * x;
case 5:
y= x * x; return x * y * y;
case 7:
y= x * x * x; return x * y * y;
...
};