关键的 gemfire 索引创建花费太多时间

Question

我们使用 Pivotal Gemfire 作为我们数据的缓存。最近我们从 gemfire 8.2.1 迁移到 9.5.1，具有完全相同的区域、数据和索引。但是在一个条目数为 7284500 的区域创建索引花费了太多时间。我们使用 Spring data gemfire v2.4.1.RELEASE 来定义缓存服务器。下面是问题区域的配置：

<gfe:replicated-region id="someRegion"
            shortcut="REPLICATE_PERSISTENT" concurrency-level=100
            persistent="true" disk-synchronous="true" statistics="true">
            <gfe:eviction action="OVERFLOW_TO_DISK" type="ENTRY_COUNT"
                    threshold=1000></gfe:eviction>
</gfe:replicated-region>

索引定义如下：

<gfe:index id="someRegion_idx1" expression="o1.var1" from="/someRegion o1" />
<gfe:index id="someRegion_idx2" expression="o2.var2" from="/someRegion o2"/>
<gfe:index id="someRegion_idx3" expression="o3.var3" from="/someRegion o3"/>
<gfe:index id="someRegion_idx4" expression="o4.var4" from="/someRegion o4"/>
<gfe:index id="someRegion_idx5" expression="o5.var5" from="/someRegion o5"/>
<gfe:index id="someRegion_idx6" expression="o6.var6" from="/someRegion o6"/>
<gfe:index id="someRegion_idx7" expression="o7.var7" from="/someRegion o7"/>
<gfe:index id="someRegion_idx8" expression="o8.var8" from="/someRegion o8"/>

缓存定义如下：

<gfe:cache
    properties-ref="gemfireProperties"
    close="true"
    critical-heap-percentage=85
    eviction-heap-percentage=75
    pdx-serializer-ref="pdxSerializer"
    pdx-persistent="true"
    pdx-read-serialized="true"
    pdx-ignore-unread-fields="false" />

下面是 Java 参数：

java -Xms50G -Xmx80G -XX:+UseConcMarkSweepGC 
-XX:+UseCMSInitiatingOccupancyOnly 
-XX:CMSInitiatingOccupancyFraction=70 
-XX:+ScavengeBeforeFullGC -XX:+CMSScavengeBeforeRemark 
-XX:+UseParNewGC -XX:+UseLargePages 
-XX:+DisableExplicitGC 
-Ddw.appname=$APPNAME \
-Dgemfire.Query.VERBOSE=true \
-Dgemfire.QueryService.allowUntrustedMethodInvocation=true \
-DDistributionManager.MAX_THREADS=20 \
-DDistributionManager.MAX_FE_THREADS=10 \
-Dcom.sun.management.jmxremote \
-Dcom.sun.management.jmxremote.port=11809 \
-Dcom.sun.management.jmxremote.authenticate=false \
-Dcom.sun.management.jmxremote.ssl=false \
-Dconfig=/config/location/ \
com.my.package.cacheServer

当运行没有 XX:+ScavengeBeforeFullGC -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC 时，我们过去常常在应用索引时遇到以下错误：

org.apache.geode.ForcedDisconnectException: Member isn't responding to heartbeat requests gemfire pivotal

我们尝试将 member-timeout 属性从 5000 增加到 300000，但同样的问题仍然存在。

添加上述 GC 相关 java 参数后，每个索引大约需要 24 分钟才能应用，但这次没有错误。这导致服务器花费太多时间来与大约 15 个其他区域一起出现。其他地区没有这样的问题。（该地区的数据量最大。其他地区的条目数约为500K到3M）

Answer 1

我从您的配置中看到了一些需要调整的地方。对于其中的一些我需要推测，因为我不知道你的一般终身堆消耗。

Xmx 必须等于 Xms 将两者都设置为 80g，因为增大堆会导致重大问题
明确设置您的 NewSize = MaxNewSize。如果我能看到 GC 日志，我可以提供帮助，但我将以这个配置作为起点。

将 NewSize 和 MaxNewSize 设置为 9gb 将 SurvivorRatio 设置为 1 将 TargetSurvivorRatio 设置为 85 添加 PrintTenuringDistribution 标志以帮助我们微调。

我不喜欢 Scavenge 标志，因为如果不进行微调，它们会导致更多抖动。现在，您可以保留它们，但我会删除 ScavengeBeforeFullGC 和 ScavengeBeforeRemark。保留 DisableExplicitGC 标志。更重要的是，虽然我读到您的行为会根据使用这些标志而改变，但找到索引创建时间与这些标志之间的相关性是一项艰巨的任务。更有可能的是，由于堆配置错误，成员变得无响应，所以让我们解决这个问题。
关于你的驱逐配置，我看到你说你在这个 "problem" 区域有 7+ 百万个条目，但是你有一个驱逐算法，你溢出到磁盘所有但前 1000 个 ??为什么？溢出到磁盘是用来处理 activity 的突发，而不是 "given"。也许您的磁盘问题导致了您问题的某些方面。也许需要访问磁盘上的所有这些条目是一个问题。当所有条目实际上都在堆中时，您是否遇到过此问题？
启用 GC 日志并设置所有标志以打印 gc 详细信息、日期戳等
如果您还没有为 GemFire 启用统计信息，请同时启用它们。
如果您发现成员超时时间不足，则可能是您的环境存在问题。这些应该得到解决，而不是想着增加成员超时来掩盖这些问题。

Answer 2

关于索引创建时间 - 正如 David 指出的那样，您已将此区域配置为将几乎所有数据都存储在磁盘上。

这将使创建索引的成本更高，因为创建索引的过程必须从磁盘读取所有条目。

但是，如果您在索引上使用 define 标志，则可以使用此配置更快地创建索引

<gfe:index id="someRegion_idx3" expression="o3.var3" from="/someRegion o3" define="true"/>

这将导致在 ApplicationContext 初始化结束时一次性创建所有索引。所以希望您的总时间将接近 24 分钟，因为 GemFire 只需扫描一次磁盘上的所有数据。

有关定义索引的详细信息，请参阅 https://docs.spring.io/spring-gemfire/docs/current/reference/html/#_defining_indexes。

这并不能真正解释您的垃圾收集问题 - 我会查看 David 的回答以获取更多详细信息。

关键的 gemfire 索引创建花费太多时间

Pivotal gemfire Index creation taking too much time

java

garbage-collection

gemfire

spring-data-gemfire