Java 8 中使用 G1 垃圾收集器的不必要的 Full GC？答案

【问题标题】：Unnecessary Full GC with the G1 garbage collector in Java 8?Java 8 中使用 G1 垃圾收集器的不必要的 Full GC？
【发布时间】：2016-04-15 14:29:36
【问题描述】：

我们注意到 G1 垃圾收集器偶尔会发生完全 GC，并伴有并发标记溢出。一旦出现并发标记重置溢出，此溢出将在下一个并发标记阶段继续。最终，由于并发标记似乎不再起作用，它会导致完整的 GC。

我们有四台机器运行相同的基于 Apache Storm 的应用程序，具有相同的数据流量。每周只有一台机器有这种体验。

这是否与BUG有关：'G1在并发标记期间发生标记堆栈溢出时不扩展标记堆栈'https://bugs.openjdk.java.net/browse/JDK-8065402

根据上一页的建议，我们将并发标记线程从 4 个增加到 8 个，堆大小从 8GB 增加到 16GB。但是，full GC 仍然会发生，唯一的区别是发生延迟。

还有其他建议吗？

这是 GC 日志：

Java HotSpot(TM) 64-Bit Server VM (25.65-b01) for linux-amd64 JRE(1.8.0_65b17), 
built on Oct  6 2015 17:16:12 by "java_re" with gcc 4.3.0 20080428 (Red Hat 4.3.0-8) 
Memory: 4k page, physical 529167668k(69283408k free), swap 33554424k(33552380k free) 
CommandLine flags: -XX:ConcGCThreads=8 -XX:G1ReservePercent=20 -XX:GCLogFileSize=104857600 
-XX:InitialHeapSize=17179869184 -XX:InitiatingHeapOccupancyPercent=45 -XX:MaxGCPauseMillis=100 
-XX:MaxHeapSize=17179869184 -XX:NumberOfGCLogFiles=10 -XX:ParallelGCThreads=30 
-XX:+PrintAdaptiveSizePolicy -XX:PrintFLSStatistics=2 -XX:+PrintGC -XX:+PrintGCApplicationStoppedTime 
-XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintHeapAtGC 
-XX:+UseCompressedClassPointers -XX:+UseCompressedOops -XX:+UseG1GC -XX:+UseGCLogFileRotation
...
...
2016-04-13T22:06:37.254-0400: 19839.175: [GC concurrent-root-region-scan-start]
2016-04-13T22:06:37.313-0400: 19839.234: [GC concurrent-root-region-scan-end, 0.0592966 secs]
2016-04-13T22:06:37.313-0400: 19839.234: [GC concurrent-mark-start]
2016-04-13T22:06:38.569-0400: 19840.490: [GC concurrent-mark-reset-for-overflow]
...
2016-04-13T22:06:42.810-0400: 19844.731: [GC concurrent-mark-reset-for-overflow]
...
2016-04-13T22:11:19.253-0400: 20121.175: [GC concurrent-mark-reset-for-overflow]
...
...
...
2016-04-14T01:58:17.254-0400: 33739.176: [GC concurrent-mark-reset-for-overflow]
...
2016-04-14T01:58:36.957-0400: 33758.878: [Full GC (Allocation Failure)

【问题讨论】：

查看这篇文章：blogs.oracle.com/poonam/entry/understanding_g1_gc_logs:3.198: [GC concurrent-mark-reset-for-overflow] 这表明全局标记堆栈已满，堆栈溢出。并发标记检测到此溢出，必须重置数据结构以重新开始标记

标签： java garbage-collection heap-memory g1gc

【解决方案1】：

来自 oracle g1_gc 博客：

GC concurrent-mark-reset-for-overflow : 这表示全局标记堆栈已满，堆栈溢出。并发标记检测到此溢出，必须重置数据结构以重新开始标记

所以增加-XX:MarkStackSize 是一种快速的胜利。

从您的 VM 参数中几乎没有观察到：

G1 GC 是一种自适应垃圾收集器，其默认设置使其无需修改即可高效工作。快速查看 G1GC 上的 oracle 文档page
要设置的关键参数：-XX:MaxGCPauseMillis, -XX:G1HeapRegionSize,-XX:ParallelGCThreads=n, -XX:ConcGCThreads=n 将其他所有内容保留为默认值。
如果您的堆大小为 16 GB，则理想的区域大小应为 8 MB。确保维护2048 区域。
重新审视您的暂停时间目标。 -XX:MaxGCPauseMillis。如果 200ms 对于 16 GB 堆不现实，请正确设置此值。
官方文档页面推荐了设置XX:ParallelGCThreads=n, -XX:ConcGCThreads=n的方式，具体取决于您机器中的内核数量。

-XX:ParallelGCThreads=n：设置 STW 工作线程的值。将 n 的值设置为逻辑处理器的数量。 n 的值与逻辑处理器的数量相同，最大为 8。

-XX:ConcGCThreads=n:设置并行标记线程数。将 n 设置为并行垃圾回收线程 (ParallelGCThreads) 数量的大约 1/4。
重新访问-XX:InitialHeapSize=17179869184 -XX:InitiatingHeapOccupancyPercent=45 -XX:G1ReservePercent=20 参数。将它们保留为默认值，除非您迫切需要更改它们。

访问此页面以更好地了解G1GC 日志。

【讨论】：

在使用新添加设置 -XX:MarkStackSize= 的四台机器中的一台机器上再次发生重复 concurrent-mark-reset-for-overflow 之后的完整 GC（与问题中显示的问题相同） 16M。如果进一步增加 -XX:MarkStackSize 后问题将得到解决，将进行更新。