将两个 64 位整数乘以 128 位然后 >> 乘以 64 位的最快方法?
Fastest way to multiply two 64-bit ints to 128-bit then >> to 64-bit?
我需要将两个带符号的 64 位整数 a
和 b
相乘,然后将(128 位)结果转换为带符号的 64 位整数。最快的方法是什么?
我的 64 位整数实际上表示具有 fmt
小数位的定点数。选择 fmt
以便 a * b >> fmt
不应该溢出,例如 abs(a) < 64<<fmt
和 abs(b) < 2<<fmt
与 fmt==56
永远不会在 64 位中溢出,因为最终结果是< 128<<fmt
因此适合 int64。
我想这样做的原因是快速准确地计算定点格式的 ((((c5*x + c4)*x + c3)*x + c2)*x + c1)*x + c0
形式的五次多项式,每个数字都是带符号的 64 位定点数 fmt
小数位。我正在寻找实现该目标的最有效方法。
正如该问题的评论者所指出的,这最容易通过依赖于机器的代码而不是通过可移植代码高效地完成。提问者表示主要平台是 x86_64,并且具有执行 64 ✕ 64 → 128 位乘法的内置指令。使用一小段内联汇编很容易访问。请注意,内联汇编的细节可能因编译器而有所不同,下面的代码是使用 Intel C/C++ 编译器构建的。
#include <stdint.h>
/* compute mul_wide (a, b) >> s, for s in [0,63] */
int64_t mulshift (int64_t a, int64_t b, int s)
{
int64_t res;
__asm__ (
"movq %1, %%rax;\n\t" // rax = a
"movl %3, %%ecx;\n\t" // ecx = s
"imulq %2;\n\t" // rdx:rax = a * b
"shrdq %%cl, %%rdx, %%rax;\n\t" // rax = int64_t (rdx:rax >> s)
"movq %%rax, %0;\n\t" // res = rax
: "=rm" (res)
: "rm"(a), "rm"(b), "rm"(s)
: "%rax", "%rdx", "%ecx");
return res;
}
与上述代码等效的可移植 C99 如下所示。我已经针对内联汇编版本对此进行了广泛的测试,没有发现不匹配。
void umul64wide (uint64_t a, uint64_t b, uint64_t *hi, uint64_t *lo)
{
uint64_t a_lo = (uint64_t)(uint32_t)a;
uint64_t a_hi = a >> 32;
uint64_t b_lo = (uint64_t)(uint32_t)b;
uint64_t b_hi = b >> 32;
uint64_t p0 = a_lo * b_lo;
uint64_t p1 = a_lo * b_hi;
uint64_t p2 = a_hi * b_lo;
uint64_t p3 = a_hi * b_hi;
uint32_t cy = (uint32_t)(((p0 >> 32) + (uint32_t)p1 + (uint32_t)p2) >> 32);
*lo = p0 + (p1 << 32) + (p2 << 32);
*hi = p3 + (p1 >> 32) + (p2 >> 32) + cy;
}
void mul64wide (int64_t a, int64_t b, int64_t *hi, int64_t *lo)
{
umul64wide ((uint64_t)a, (uint64_t)b, (uint64_t *)hi, (uint64_t *)lo);
if (a < 0LL) *hi -= b;
if (b < 0LL) *hi -= a;
}
/* compute mul_wide (a, b) >> s, for s in [0,63] */
int64_t mulshift (int64_t a, int64_t b, int s)
{
int64_t res;
int64_t hi, lo;
mul64wide (a, b, &hi, &lo);
if (s) {
res = ((uint64_t)hi << (64 - s)) | ((uint64_t)lo >> s);
} else {
res = lo;
}
return res;
}
我需要将两个带符号的 64 位整数 a
和 b
相乘,然后将(128 位)结果转换为带符号的 64 位整数。最快的方法是什么?
我的 64 位整数实际上表示具有 fmt
小数位的定点数。选择 fmt
以便 a * b >> fmt
不应该溢出,例如 abs(a) < 64<<fmt
和 abs(b) < 2<<fmt
与 fmt==56
永远不会在 64 位中溢出,因为最终结果是< 128<<fmt
因此适合 int64。
我想这样做的原因是快速准确地计算定点格式的 ((((c5*x + c4)*x + c3)*x + c2)*x + c1)*x + c0
形式的五次多项式,每个数字都是带符号的 64 位定点数 fmt
小数位。我正在寻找实现该目标的最有效方法。
正如该问题的评论者所指出的,这最容易通过依赖于机器的代码而不是通过可移植代码高效地完成。提问者表示主要平台是 x86_64,并且具有执行 64 ✕ 64 → 128 位乘法的内置指令。使用一小段内联汇编很容易访问。请注意,内联汇编的细节可能因编译器而有所不同,下面的代码是使用 Intel C/C++ 编译器构建的。
#include <stdint.h>
/* compute mul_wide (a, b) >> s, for s in [0,63] */
int64_t mulshift (int64_t a, int64_t b, int s)
{
int64_t res;
__asm__ (
"movq %1, %%rax;\n\t" // rax = a
"movl %3, %%ecx;\n\t" // ecx = s
"imulq %2;\n\t" // rdx:rax = a * b
"shrdq %%cl, %%rdx, %%rax;\n\t" // rax = int64_t (rdx:rax >> s)
"movq %%rax, %0;\n\t" // res = rax
: "=rm" (res)
: "rm"(a), "rm"(b), "rm"(s)
: "%rax", "%rdx", "%ecx");
return res;
}
与上述代码等效的可移植 C99 如下所示。我已经针对内联汇编版本对此进行了广泛的测试,没有发现不匹配。
void umul64wide (uint64_t a, uint64_t b, uint64_t *hi, uint64_t *lo)
{
uint64_t a_lo = (uint64_t)(uint32_t)a;
uint64_t a_hi = a >> 32;
uint64_t b_lo = (uint64_t)(uint32_t)b;
uint64_t b_hi = b >> 32;
uint64_t p0 = a_lo * b_lo;
uint64_t p1 = a_lo * b_hi;
uint64_t p2 = a_hi * b_lo;
uint64_t p3 = a_hi * b_hi;
uint32_t cy = (uint32_t)(((p0 >> 32) + (uint32_t)p1 + (uint32_t)p2) >> 32);
*lo = p0 + (p1 << 32) + (p2 << 32);
*hi = p3 + (p1 >> 32) + (p2 >> 32) + cy;
}
void mul64wide (int64_t a, int64_t b, int64_t *hi, int64_t *lo)
{
umul64wide ((uint64_t)a, (uint64_t)b, (uint64_t *)hi, (uint64_t *)lo);
if (a < 0LL) *hi -= b;
if (b < 0LL) *hi -= a;
}
/* compute mul_wide (a, b) >> s, for s in [0,63] */
int64_t mulshift (int64_t a, int64_t b, int s)
{
int64_t res;
int64_t hi, lo;
mul64wide (a, b, &hi, &lo);
if (s) {
res = ((uint64_t)hi << (64 - s)) | ((uint64_t)lo >> s);
} else {
res = lo;
}
return res;
}