micro-optimization
-
您如何推断基准测试数据的波动?
-
将 rax 寄存器的最高位设置为 rdx 寄存器中的最低位的最快方法
-
C中的内联汇编
-
现在在 x86-64 上仍然值得使用 Quake 快速平方根反比算法吗?
-
cuda10+ 中 uint2 和 uint64_t 之间有 performance/storage 区别吗?
-
将一个寄存器的位复制到另一个寄存器(x86-64 asm)
-
与其他宽度不同,为什么短(16 位)变量将值移动到寄存器并存储它?
-
将核碱基表示形式从 ASCII 转换为 UCSC .2 位
-
如何加快将 n 元素集的所有分区打印成 k 无序集的速度
-
使用 AVX2 实现的 GEMM 内核比 Zen 2 CPU 上的 AVX2/FMA 更快
-
Intel JCC Erratum - 用于缓解的前缀有什么影响?
-
string_view 对比 const char* 性能
-
32 位和 64 位寄存器是否会导致 CPU 微架构的差异?
-
当将四个 1 字节的变量连接到一个 4 字节的字时,哪种移位和或运算的方法更快? (对比生成的汇编代码)
-
如何编写从 std::invalid_argument 派生的自定义异常 class?
-
C++ 对不同概念的不同使用声明
-
C++20 可能还是不太可能?
-
汇编函数地址table及函数下或数据段中的数据
-
avx 指令中的源寄存器何时可以重用
-
为什么 clang 的尾声使用 add $N, %rsp 而不是 mov %rbp, %rsp 来恢复 %rsp?