为什么 C++ 可执行文件运行在与较新的 libstdc++.so 链接时速度如此之快？

Question

我有一个项目（代码 here），我在其中运行进行基准测试以比较不同点积计算方法（朴素方法、Eigen 库、SIMD 实现等）的性能。我正在新的 Centos 7.6 VM 上进行测试。我注意到，当我使用不同版本的 libstdc++.so.6 时，我的性能会有很大不同。

当我启动一个新的 Centos 7.6 实例时，默认的 C++ 标准库是 libstdc++.so.6.0.19。当我运行我的基准可执行文件（link 针对此版本的 libstdc++ 编辑）时，输出如下：

Naive Implementation, 1000000 iterations: 1448.74 ns average time
Optimized Implementation, 1000000 iterations: 1094.2 ns average time
AVX2 implementation, 1000000 iterations: 1069.57 ns average time
Eigen Implementation, 1000000 iterations: 1027.21 ns average time
AVX & FMA implementation 1, 1000000 iterations: 1028.68 ns average time
AVX & FMA implementation 2, 1000000 iterations: 1021.26 ns average time

如果我下载 libstdc++.so.6.0.26 并更改符号 link libstdc++.so.6 以指向这个较新的库并重新运行可执行文件（无需重新编译或更改任何其他内容），结果如下：

Naive Implementation, 1000000 iterations: 297.981 ns average time
Optimized Implementation, 1000000 iterations: 156.649 ns average time
AVX2 implementation, 1000000 iterations: 131.577 ns average time
Eigen Implementation, 1000000 iterations: 92.9909 ns average time
AVX & FMA implementation 1, 1000000 iterations: 78.136 ns average time
AVX & FMA implementation 2, 1000000 iterations: 80.0832 ns average time

为什么速度有如此显着的提高（有些实现速度快 10 倍）？

由于我的用例，我可能需要 link 反对 libstdc++.so.6.0.19。在使用旧版本 libstdc++ 时，我可以在我的代码中/在我这边看到这些速度改进吗？

编辑：我创建了一个最小的可重现示例。

main.cpp

#include <iostream>
#include <vector>
#include <cstring>
#include <chrono>
#include <cmath>
#include <iostream>

typedef std::chrono::high_resolution_clock Clock;

const size_t SIZE_FLOAT = 512;

double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2);
void generateNormalizedData(std::vector<uint8_t>& v);

int main() {
     // Seed for random number
    srand (time(nullptr));

    std::vector<uint8_t> v1;
    std::vector<uint8_t> v2;

    generateNormalizedData(v1);
    generateNormalizedData(v2);

    const size_t numIterations = 10000000;
    double totalTime = 0.0;

    for (size_t i = 0; i < numIterations; ++i) {
        auto t1 = Clock::now(); 
        auto similarity = computeDotProductOptomized(v1, v2);
        auto t2 = Clock::now();

        totalTime += std::chrono::duration_cast<std::chrono::nanoseconds>(t2 - t1).count();
    }

    std::cout << "Average Time Taken: " << totalTime / numIterations << '\n';

    return 0;
}

double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2) {
    const auto *x = reinterpret_cast<const float*>(v1.data());
    const auto *y = reinterpret_cast<const float*>(v2.data());

    double similarity = 0;

    for (size_t i = 0; i < SIZE_FLOAT; ++i) {
        similarity += *(x + i) * *(y + i);
    }

    return similarity;
}

void generateNormalizedData(std::vector<uint8_t>& v) {
    std::vector<float> vFloat(SIZE_FLOAT);
    v.resize(SIZE_FLOAT * sizeof(float));

    for(float & i : vFloat) {
        i = static_cast <float> (rand()) / static_cast <float> (RAND_MAX);
    }

    // Normalize the vector
    float mod = 0.0;

    for (float i : vFloat) {
        mod += i * i;
    }

    float mag = std::sqrt(mod);

    if (mag == 0) {
        throw std::logic_error("The input vector is a zero vector");
    }

    for (float & i : vFloat) {
        i /= mag;
    }

    memcpy(v.data(), vFloat.data(), v.size());
}

CMakeLists.txt

cmake_minimum_required(VERSION 3.14)
project(dot-prod-benchmark-min-reproducible-example C CXX)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fPIC -Ofast -ffast-math -march=broadwell")
set(CMAKE_BUILD_TYPE Release)
set(CMAKE_CXX_STANDARD 14)

add_executable(benchmark main.cpp)

编译于 centos-release-7-6.1810.2.el7.centos.x86_64，使用 cmake version 3.16.2，gcc (GCC) 7.3.1 20180303 Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz、4 个 vCPU

使用libstdc++.so.6.0.19：平均花费时间：1279.41 使用 libstdc++.20.6.0.26：平均花费时间：168.219

Answer 1

rustyx 是正确的。在循环中使用 auto t1 = Clock::now(); 导致性能不佳。一旦我将时间移到循环外（时间是所用的总时间），那么它们运行同样快：

    const size_t numIterations = 10000000;
    auto t1 = Clock::now(); 

    for (size_t i = 0; i < numIterations; ++i) {
        auto similarity = computeDotProductOptomized(v1, v2);
    }

    auto t2 = Clock::now();

    std::cout << "Total Time Taken: " << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << " ms\n";

Answer 2

您的旧 libstdc++.so 来自 GCC 4.8，在该版本中，Clock::now() 调用直接对内核进行系统调用以获取当前时间。

这比使用 libc 中的 clock_gettime 函数要慢得多，后者从内核的 vDSO 库中获取结果而不是进行系统调用。这就是较新的 libstdc++.so 所做的。

不幸的是，GCC 4.8.x 是在 Glibc 使 clock_gettime 功能可用而未链接到 librt.so 之前发布的，因此 CentOS 7 中的 libstdc++.so 不知道它可以使用 Glibc 中的 clock_gettime 而不是直接的系统调用。在构建 GCC 4.8.x 时可以使用一个配置选项，告诉它在 libc.so 中查找函数，但 CentOS 7 编译器并未在启用该选项的情况下构建。我认为如果不使用不同的 libstdc++.so 库就无法解决这个问题。

为什么 C++ 可执行文件运行在与较新的 libstdc++.so 链接时速度如此之快？

Why is C++ executable running so much faster when linked against newer libstdc++.so?

c++

optimization

gcc

libstdc++

为什么 C++ 可执行文件 运行 在与较新的 libstdc++.so 链接时速度如此之快？

Why is C++ executable running so much faster when linked against newer libstdc++.so?

c++

optimization

gcc

libstdc++

为什么 C++ 可执行文件运行在与较新的 libstdc++.so 链接时速度如此之快？