使用 G1 时，大量活动实例的分配性能会降低吗？

Question

在将我们的一些应用程序从 CMS 迁移到 G1 时，我注意到其中一个应用程序的启动时间延长了 4 倍。由于 GC 循环导致的应用程序停止时间不是原因。在比较应用程序行为时，我发现这个应用程序在启动后携带了高达 2.5 亿个活动对象（在 12G 的堆中）。进一步调查表明，应用程序在前 500 万次分配中速度正常，但随着活动对象池的增大，性能越来越下降。

进一步的实验表明，一旦达到一定的活动对象阈值，使用 G1 时新对象的分配确实会变慢。我发现将活动对象的数量加倍似乎会使该分配所需的时间增加 2.5 倍左右。对于其他 GC 引擎，该系数仅为 2。这确实可以解释减速的原因。

不过有两个问题让我怀疑这个结论：

大约 500 万个活动实例的阈值似乎与整个堆有关。对于 G1，我预计任何此类降级阈值都与区域相关，而不是与整个堆相关。
我在网上四处寻找解释（或至少陈述）这种行为的文档，但我找到了 none。我什至没有找到 'Having more than xxx live objects is evil'.

因此：如果有人可以告诉我我的观察是正确的，并且可能会指出一些解释性文件或一些关于该领域的建议，那就太好了。或者，或者，有人告诉我我做错了什么。 :)

这里是一个简短的测试用例（运行多次，取平均值，减去显示的垃圾回收次数）：

import java.util.HashMap;

/**
  * Allocator demonstrates the dependency between number of live objects
  * and allocation speed, using various GC algorithms.
  * Call it using, e.g.:
  *   java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime -XX:+UseG1GC
  *   java Allocator -Xmx12g -Xms12g -XX:+PrintGCApplicationStoppedTime
  * Deduct stopped times from execution time.
  */
public class Allocator {

public static void main(String[] args) {
    timer(2000000, true);
    for (int i = 1000000; i <= 32000000; i*=2) {
        timer(i, false);
    }
    for (int i = 32000000; i >= 1000000; i/=2) {
        timer(i, false);
    }
}

private static void timer(int num, boolean warmup) {
    long before = System.currentTimeMillis();
    Allocator a = new Allocator();
    int size = a.allocate(num);
    long after = System.currentTimeMillis();
    if (!warmup) {
        System.out.println("Time needed for " + num + " allocations: "
           + (after - before) + " millis. Map size = " + size);
    }
}

private int allocate(int numElements) {
    HashMap<Integer, String> map = new HashMap<>(2*numElements);
    for (int i = 0; i < numElements; i++) {
        map.put(i, Integer.toString(i));
    }
    return map.size();
}

}

Answer 1

如以上评论所述：

您的测试用例确实预先分配了非常大的参考数组，这些数组是长期存在的并且基本上占据了自己的区域（它们可能最终位于老一代或巨大的区域），然后用数百万个填充它们可能存在于不同区域的其他对象。

这会产生大量跨区域引用，G1 可以处理中等数量，但每个区域无法处理数百万。

G1 的启发式算法也认为高度互连区域的收集成本很高，因此即使它们完全由垃圾组成也不太可能被收集。

将对象分配在一起以减少跨区域引用。

不人为地过多延长它们的生命周期（例如，通过将它们放入某种缓存中）也允许它们在年轻代 GC 期间死亡，这比旧区域更容易收集，老区域本质上会积累从中引用的对象不同地区。

所以总的来说，你的测试用例对 G1 基于区域的性质相当敌视。

使用 G1 时，大量活动实例的分配性能会降低吗？

Does allocation performance degrade on a large number of live instances when using G1?

java

performance

garbage-collection

g1gc