使用 G1 时,大量活动实例的分配性能会降低吗?
Does allocation performance degrade on a large number of live instances when using G1?
在将我们的一些应用程序从 CMS 迁移到 G1 时,我注意到其中一个应用程序的启动时间延长了 4 倍。由于 GC 循环导致的应用程序停止时间不是原因。在比较应用程序行为时,我发现这个应用程序在启动后携带了高达 2.5 亿个活动对象(在 12G 的堆中)。进一步调查表明,应用程序在前 500 万次分配中速度正常,但随着活动对象池的增大,性能越来越下降。
进一步的实验表明,一旦达到一定的活动对象阈值,使用 G1 时新对象的分配确实会变慢。我发现将活动对象的数量加倍似乎会使该分配所需的时间增加 2.5 倍左右。对于其他 GC 引擎,该系数仅为 2。这确实可以解释减速的原因。
不过有两个问题让我怀疑这个结论:
- 大约 500 万个活动实例的阈值似乎与整个堆有关。对于 G1,我预计任何此类降级阈值都与区域相关,而不是与整个堆相关。
- 我在网上四处寻找解释(或至少陈述)这种行为的文档,但我找到了 none。我什至没有找到 'Having more than xxx live objects is evil'.
这种推荐
因此:如果有人可以告诉我我的观察是正确的,并且可能会指出一些解释性文件或一些关于该领域的建议,那就太好了。或者,或者,有人告诉我我做错了什么。 :)
这里是一个简短的测试用例(运行多次,取平均值,减去显示的垃圾回收次数):
import java.util.HashMap;
/**
* Allocator demonstrates the dependency between number of live objects
* and allocation speed, using various GC algorithms.
* Call it using, e.g.:
* java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime -XX:+UseG1GC
* java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime
* Deduct stopped times from execution time.
*/
public class Allocator {
public static void main(String[] args) {
timer(2000000, true);
for (int i = 1000000; i <= 32000000; i*=2) {
timer(i, false);
}
for (int i = 32000000; i >= 1000000; i/=2) {
timer(i, false);
}
}
private static void timer(int num, boolean warmup) {
long before = System.currentTimeMillis();
Allocator a = new Allocator();
int size = a.allocate(num);
long after = System.currentTimeMillis();
if (!warmup) {
System.out.println("Time needed for " + num + " allocations: "
+ (after - before) + " millis. Map size = " + size);
}
}
private int allocate(int numElements) {
HashMap<Integer, String> map = new HashMap<>(2*numElements);
for (int i = 0; i < numElements; i++) {
map.put(i, Integer.toString(i));
}
return map.size();
}
}
如以上评论所述:
您的测试用例确实预先分配了非常大的参考数组,这些数组是长期存在的并且基本上占据了自己的区域(它们可能最终位于老一代或巨大的区域),然后用数百万个填充它们可能存在于不同区域的其他对象。
这会产生大量跨区域引用,G1 可以处理中等数量,但每个区域无法处理数百万。
G1 的启发式算法也认为高度互连区域的收集成本很高,因此即使它们完全由垃圾组成也不太可能被收集。
将对象分配在一起以减少跨区域引用。
不人为地过多延长它们的生命周期(例如,通过将它们放入某种缓存中)也允许它们在年轻代 GC 期间死亡,这比旧区域更容易收集,老区域本质上会积累从中引用的对象不同地区。
所以总的来说,你的测试用例对 G1 基于区域的性质相当敌视。
在将我们的一些应用程序从 CMS 迁移到 G1 时,我注意到其中一个应用程序的启动时间延长了 4 倍。由于 GC 循环导致的应用程序停止时间不是原因。在比较应用程序行为时,我发现这个应用程序在启动后携带了高达 2.5 亿个活动对象(在 12G 的堆中)。进一步调查表明,应用程序在前 500 万次分配中速度正常,但随着活动对象池的增大,性能越来越下降。
进一步的实验表明,一旦达到一定的活动对象阈值,使用 G1 时新对象的分配确实会变慢。我发现将活动对象的数量加倍似乎会使该分配所需的时间增加 2.5 倍左右。对于其他 GC 引擎,该系数仅为 2。这确实可以解释减速的原因。
不过有两个问题让我怀疑这个结论:
- 大约 500 万个活动实例的阈值似乎与整个堆有关。对于 G1,我预计任何此类降级阈值都与区域相关,而不是与整个堆相关。
- 我在网上四处寻找解释(或至少陈述)这种行为的文档,但我找到了 none。我什至没有找到 'Having more than xxx live objects is evil'. 这种推荐
因此:如果有人可以告诉我我的观察是正确的,并且可能会指出一些解释性文件或一些关于该领域的建议,那就太好了。或者,或者,有人告诉我我做错了什么。 :)
这里是一个简短的测试用例(运行多次,取平均值,减去显示的垃圾回收次数):
import java.util.HashMap;
/**
* Allocator demonstrates the dependency between number of live objects
* and allocation speed, using various GC algorithms.
* Call it using, e.g.:
* java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime -XX:+UseG1GC
* java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime
* Deduct stopped times from execution time.
*/
public class Allocator {
public static void main(String[] args) {
timer(2000000, true);
for (int i = 1000000; i <= 32000000; i*=2) {
timer(i, false);
}
for (int i = 32000000; i >= 1000000; i/=2) {
timer(i, false);
}
}
private static void timer(int num, boolean warmup) {
long before = System.currentTimeMillis();
Allocator a = new Allocator();
int size = a.allocate(num);
long after = System.currentTimeMillis();
if (!warmup) {
System.out.println("Time needed for " + num + " allocations: "
+ (after - before) + " millis. Map size = " + size);
}
}
private int allocate(int numElements) {
HashMap<Integer, String> map = new HashMap<>(2*numElements);
for (int i = 0; i < numElements; i++) {
map.put(i, Integer.toString(i));
}
return map.size();
}
}
如以上评论所述:
您的测试用例确实预先分配了非常大的参考数组,这些数组是长期存在的并且基本上占据了自己的区域(它们可能最终位于老一代或巨大的区域),然后用数百万个填充它们可能存在于不同区域的其他对象。
这会产生大量跨区域引用,G1 可以处理中等数量,但每个区域无法处理数百万。
G1 的启发式算法也认为高度互连区域的收集成本很高,因此即使它们完全由垃圾组成也不太可能被收集。
将对象分配在一起以减少跨区域引用。
不人为地过多延长它们的生命周期(例如,通过将它们放入某种缓存中)也允许它们在年轻代 GC 期间死亡,这比旧区域更容易收集,老区域本质上会积累从中引用的对象不同地区。
所以总的来说,你的测试用例对 G1 基于区域的性质相当敌视。