在比较 Java 和 C++ 的速度时,我应该用 -O3 还是 -O2 编译 C++ 代码?
When comparing Java with C++ for speed should I compile the C++ code with -O3 or -O2?
我正在用 Java 和 C++ 编写各种等效程序来比较这两种语言的速度。这些程序在循环中使用繁重的数学计算。
有趣的是,我发现当我使用 -O3
时,C++ 胜过 Java。当我使用 -O2
Java 胜过 C++.
我应该使用哪种 g++ 编译器优化来得出关于我的比较的结论?
我知道这并不像听起来那么简单,但我想对 latency/speed Java 和 C++ 之间的比较有一些见解。
Interestingly enough I find that C++ beats Java when I use -O3. When I use -O2 Java beats C++.
-O3
肯定会在微基准测试中击败 -O2
,但是当您对更实际的应用程序(例如 FIX 引擎)进行基准测试时,您会发现 -O2
击败 -O3
在性能方面。
据我所知,-O3
在编译 小而数学 代码段方面做得很好,但对于更实际和更大的应用程序,它实际上可以是比 -O2
慢。通过尝试积极优化所有内容(即内联、矢量化等),编译器将生成巨大的二进制文件,导致 cpu 缓存未命中(即尤其是指令缓存未命中)。这就是 Hotspot JIT 选择不优化大方法 and/or 非热点方法的原因之一。
需要注意的一件重要事情是 JIT 使用 方法作为符合优化条件的独立单元 。在 中,您有以下代码:
int iterations = stoi(argv[1]);
int load = stoi(argv[2]);
long long x = 0;
for(int i = 0; i < iterations; i++) {
long start = get_nano_ts(); // START clock
for(int j = 0; j < load; j++) {
if (i % 4 == 0) {
x += (i % 4) * (i % 8);
} else {
x -= (i % 16) * (i % 32);
}
}
long end = get_nano_ts(); // STOP clock
// (omitted for clarity)
}
cout << "My result: " << x << endl;
但是这段代码 JIT 不友好 因为热代码块不在它自己的方法中。对于主要的 JIT 收益,您应该将代码块放在循环内的它自己的方法上。 您的方法执行热代码块而不是热方法。包含 for
循环的方法可能只被调用一次,因此 JIT 不会对此做任何事情。
When comparing Java with C++ for speed should I compile the C++ code with -O3 or -O2?
好吧,如果您将 -O3
用于微基准测试,您将获得惊人的快速结果,这对于更大、更复杂的应用程序来说是不现实的。这就是为什么我认为 法官 使用 -O2
而不是 -O3
。例如,our garbage-free Java FIX engine 比 C++ FIX 引擎更快,我不知道它们是用 -O0
、-O1
、-O2
、-O3
还是混合编译其中通过可执行文件 linking.
理论上,一个人可以将整个 C++ 应用程序选择性地划分为可执行文件,选择哪些要用 -O2
编译,哪些要用 [=11 编译=].然后 link 理想的二进制可执行文件中的所有内容。但在现实中,这有多可行?
热点选择的方法要简单得多。它说:
听着,我会将每个方法视为一个独立的执行单元,而不是任何地方的任何代码块。如果该方法足够热(即经常调用)并且足够小,我会尝试积极优化它。
这当然有需要 代码预热 的缺点,但它更简单并且在大多数情况下为 realistic/large/complex 应用程序产生最佳结果。
最后但同样重要的是,如果您想使用 -O3
编译整个应用程序,您可能应该考虑这个问题:When can I confidently compile program with -O3?
如果可能,将其与两者进行比较,因为 -O2 和 -O3 都是 C++ 开发人员可用的选项。有时 -O2 会赢。有时 -O3 会赢。如果两者都可用,那只是更多信息,可用于支持您通过这些速度比较尝试完成的任何事情。
我正在用 Java 和 C++ 编写各种等效程序来比较这两种语言的速度。这些程序在循环中使用繁重的数学计算。
有趣的是,我发现当我使用 -O3
时,C++ 胜过 Java。当我使用 -O2
Java 胜过 C++.
我应该使用哪种 g++ 编译器优化来得出关于我的比较的结论?
我知道这并不像听起来那么简单,但我想对 latency/speed Java 和 C++ 之间的比较有一些见解。
Interestingly enough I find that C++ beats Java when I use -O3. When I use -O2 Java beats C++.
-O3
肯定会在微基准测试中击败 -O2
,但是当您对更实际的应用程序(例如 FIX 引擎)进行基准测试时,您会发现 -O2
击败 -O3
在性能方面。
据我所知,-O3
在编译 小而数学 代码段方面做得很好,但对于更实际和更大的应用程序,它实际上可以是比 -O2
慢。通过尝试积极优化所有内容(即内联、矢量化等),编译器将生成巨大的二进制文件,导致 cpu 缓存未命中(即尤其是指令缓存未命中)。这就是 Hotspot JIT 选择不优化大方法 and/or 非热点方法的原因之一。
需要注意的一件重要事情是 JIT 使用 方法作为符合优化条件的独立单元 。在
int iterations = stoi(argv[1]);
int load = stoi(argv[2]);
long long x = 0;
for(int i = 0; i < iterations; i++) {
long start = get_nano_ts(); // START clock
for(int j = 0; j < load; j++) {
if (i % 4 == 0) {
x += (i % 4) * (i % 8);
} else {
x -= (i % 16) * (i % 32);
}
}
long end = get_nano_ts(); // STOP clock
// (omitted for clarity)
}
cout << "My result: " << x << endl;
但是这段代码 JIT 不友好 因为热代码块不在它自己的方法中。对于主要的 JIT 收益,您应该将代码块放在循环内的它自己的方法上。 您的方法执行热代码块而不是热方法。包含 for
循环的方法可能只被调用一次,因此 JIT 不会对此做任何事情。
When comparing Java with C++ for speed should I compile the C++ code with -O3 or -O2?
好吧,如果您将 -O3
用于微基准测试,您将获得惊人的快速结果,这对于更大、更复杂的应用程序来说是不现实的。这就是为什么我认为 法官 使用 -O2
而不是 -O3
。例如,our garbage-free Java FIX engine 比 C++ FIX 引擎更快,我不知道它们是用 -O0
、-O1
、-O2
、-O3
还是混合编译其中通过可执行文件 linking.
理论上,一个人可以将整个 C++ 应用程序选择性地划分为可执行文件,选择哪些要用 -O2
编译,哪些要用 [=11 编译=].然后 link 理想的二进制可执行文件中的所有内容。但在现实中,这有多可行?
热点选择的方法要简单得多。它说:
听着,我会将每个方法视为一个独立的执行单元,而不是任何地方的任何代码块。如果该方法足够热(即经常调用)并且足够小,我会尝试积极优化它。
这当然有需要 代码预热 的缺点,但它更简单并且在大多数情况下为 realistic/large/complex 应用程序产生最佳结果。
最后但同样重要的是,如果您想使用 -O3
编译整个应用程序,您可能应该考虑这个问题:When can I confidently compile program with -O3?
如果可能,将其与两者进行比较,因为 -O2 和 -O3 都是 C++ 开发人员可用的选项。有时 -O2 会赢。有时 -O3 会赢。如果两者都可用,那只是更多信息,可用于支持您通过这些速度比较尝试完成的任何事情。