标签: JVM调优

  • 深入 JVM 堆外内存排查:Netty DirectByteBuffer 泄漏引发的 OOM-Kill 与 G1 延迟回收机制解析

    排查某核心网关 OOM-Kill 时确认,堆内存仅使用 40%,容器却因 RSS 物理内存超限被内核干掉。根因是底层 Netty 大量分配 DirectByteBuffer,而 G1 垃圾回收跟不上堆外内存分配速度,PhantomReference 未及时触发 Cleaner 回收。解决方案:显式配置 -XX:MaxDirectMemorySize 拦截溢出,开启 NMT 追踪,并修正代码中未 release() 的 ByteBuf 泄漏。

    故障现场:消失的 Pod 与飙升的 RSS

    近期某基于 Netty 的 RPC 网关集群频繁发生 Pod 重启。监控大盘显示,该服务在 QPS 触达 5000 左右时,P99 耗时从平稳的 15ms 突增至 200ms+,随后实例直接失联。

    登录宿主机执行 dmesg -T,拿到内核级的死亡判决书:

    [Fri Oct 20 10:14:23] java invoked oom-killer: gfp_mask=0xd0, order=0, oom_score_adj=974
    [Fri Oct 20 10:14:24] Task in /kubepods/burstable/pod-xxx killed as a result of limit of /kubepods/burstable/pod-xxx
    [Fri Oct 20 10:14:24] memory: usage 8388608kB, limit 8388608kB, failcnt 3241
    [Fri Oct 20 10:14:24] Memory cgroup out of memory: Kill process 12345 (java) score 1000 or sacrifice child
    

    这是典型的 Linux Cgroup OOM-Kill。核对该 Pod 的资源配置:Limit 设为 8G,而 JVM 核心参数配置如下(基于 OpenJDK 11.0.17):

    -Xms4G -Xmx4G -XX:+UseG1GC -XX:MaxMetaspaceSize=256M -XX:+PrintGCDetails
    

    堆内存(4G)加上 Metaspace(256M)和线程栈,理论上 JVM 吃掉的物理内存撑死在 5G 左右。剩下的 3G 空间去哪了?毫无疑问,堆外内存泄漏

    抽丝剥茧:利用 NMT 与 pmap 锁定真凶

    排查堆外内存,第一步永远是开启 Native Memory Tracking (NMT)。在启动参数中追加 -XX:NativeMemoryTracking=detail,并在应用 RSS 达到 7G 时,抓取内存分布快照:

    jcmd <pid> VM.native_memory summary
    

    输出结果的重点片段如下:

    Native Memory Tracking:
    Total: reserved=7345MB, committed=7120MB
    -                 Java Heap (reserved=4096MB, committed=4096MB)
    -                     Class (reserved=260MB, committed=128MB)
    -                    Thread (reserved=120MB, committed=120MB)
    -                      Code (reserved=250MB, committed=40MB)
    -                        GC (reserved=180MB, committed=180MB)
    -                  Internal (reserved=2320MB, committed=2320MB)  <-- 重点在这里
    ...
    

    NMT 明确指出 Internal 部分占用了 2.3G。在 JVM 语境下,DirectByteBuffer 申请的直接内存往往会反映在 InternalOther 区域(取决于具体的 JDK 版本和 Unsafe 分配逻辑)。

    进一步通过 OS 级别工具验证,抓取 pmap -x | sort -n -k3,发现大量 64MB 大小的匿名内存块(anon)。这是典型的 glibc malloc Arena 内存分配特征,高度吻合 Java 通过 Unsafe.allocateMemory 绕过 JVM 堆直接向 OS 拿内存的行为。

    立刻打一个 Heap Dump,用 MAT(Memory Analyzer Tool)分析,直接查看 java.nio.DirectByteBuffer 实例,发现堆内虽然只有不到 50MB 的 DirectByteBuffer 对象,但它们持有的 capacity 总和高达 2.5G!

    为什么 G1 无法及时回收 DirectByteBuffer 引发的堆外内存溢出?

    很多人会有疑问:DirectByteBuffer 虽然分配在堆外,但 Java 堆内依然有它的代理对象。既然堆内对象失去引用,为什么 G1 没有把它们回收掉,进而释放堆外内存?

    这涉及底层 DirectByteBuffer 的分配与回收机制。直接看 JDK 源码 java.nio.DirectByteBuffer 的构造函数:

    DirectByteBuffer(int cap) {
        super(-1, 0, cap, cap);
        boolean pa = VM.isDirectMemoryPageAligned();
        int ps = Bits.pageSize();
        long size = Math.max(1L, (long)cap + (pa ? ps : 0));
        Bits.reserveMemory(size, cap); // 记录分配的直接内存大小
    
        long base = 0;
        try {
            base = unsafe.allocateMemory(size); // 真正的 OS 级别 malloc
        } catch (OutOfMemoryError x) {
            Bits.unreserveMemory(size, cap);
            throw x;
        }
        unsafe.setMemory(base, size, (byte) 0);
        // 绑定 Cleaner (底层是 PhantomReference)
        cleaner = Cleaner.create(this, new Deallocator(base, size, cap));
    }
    

    堆外内存的释放依赖于 sun.misc.Cleaner。它是一个 PhantomReference(虚引用)。只有当 G1 垃圾回收器发现 DirectByteBuffer 对象不再可达,才会将对应的 Cleaner 放入 ReferenceQueue,随后由后台的 ReferenceHandler 线程执行 Deallocator.run() 调用 Unsafe.freeMemory() 归还给 OS。

    惨案的根本原因在于 G1 的触发时机:

    1. 业务流量大,DirectByteBuffer 对象快速晋升到 Old Gen(老年代)。

    2. JVM 配置了 4G 的大堆,而 DirectByteBuffer 的 Java 层对象非常小(几十字节)。

    3. G1 的 Concurrent Mark(并发标记)阶段默认需要老年代使用率达到 InitiatingHeapOccupancyPercent(默认 45%)才会触发。

    4. 由于对象极小,老年代迟迟达不到 45% 的阈值,G1 根本觉得不需要执行 GC

    5. 堆内非常空闲,堆外却已经被 OS 级的 malloc 撑爆,最终触发 Linux OOM-Killer 绞杀。

    更致命的是,如果没有显式设置 -XX:MaxDirectMemorySize,JDK 默认的直接内存上限几乎等于堆内存的最大值(-Xmx)。这意味着 JVM 认为可以申请最多 4G 的堆外内存,完全忽略了容器 8G 的硬限制。

    防御性加固与最佳实践落地

    明确了机制,修复方案就不应该仅仅是“改 Bug”,而是要从架构和 JVM 配置上进行系统级加固。

    1. 锁死 MaxDirectMemorySize,让异常暴露在 JVM 层

    永远不要依赖 OS OOM-Killer 来终结应用,那会导致现场完全丢失。必须在启动参数中显式限制直接内存:

    -XX:MaxDirectMemorySize=1536M
    -XX:+HeapDumpOnOutOfMemoryError
    -XX:HeapDumpPath=/data/logs/
    

    当直接内存超过 1.5G 时,JVM 的 Bits.reserveMemory() 会主动抛出 java.lang.OutOfMemoryError: Direct buffer memory,同时触发 HeapDump,精准保留第一案发现场。

    2. Netty 代码层的内存泄漏防御

    在业务逻辑中,通过 Netty ByteBuf 读取数据后,由于各种异常分支未调用 ReferenceCountUtil.release(msg),导致内存泄漏。 除了修复代码逻辑,必须开启 Netty 的高级内存泄漏检测:

    -Dio.netty.leakDetection.level=PARANOID
    

    该参数会强制追踪所有 ByteBuf 的生命周期,一旦发现未释放的 Buffer 被 GC 垃圾回收,直接在日志中打印泄漏时的创建堆栈。实战中靠这一行配置揪出了 3 个隐藏极深的 try-catch 遗漏点。

    3. 主动触发系统 GC (针对特定场景)

    如果在特定的古老系统(不支持显式 release)中,可以通过 JNI 或 System.gc() 的策略干预。其实 Bits.reserveMemory() 源码中,在申请不到内存时会主动调用 System.gc() 尝试触发 Full GC 来拯救堆外内存。但如果你配置了 -XX:+DisableExplicitGC,这条退路就被切断了。结论:在使用大量 Direct Memory 的场景中,慎用 -XX:+DisableExplicitGC

    常见问题 (Q&A)

    Q1:排查时,为什么有时候 NMT (Native Memory Tracking) 抓不到堆外内存的异常? 如果第三方库(如 JNA、直接调用 C/C++ 动态链接库的 JNI 模块)直接调用了 OS 的 mallocmmap,这部分内存是绕过 JVM Unsafe API 的,NMT 无法感知,它只会将其归类为 OS 级别的未追踪占用。此时只能通过 Linux 原生的 pmapstrace 或 eBPF 工具去追踪 malloc 相关的系统调用。

    Q2:如果把 G1 换成 ZGC,能解决这种堆外内存泄漏问题吗? 不能。ZGC 和 G1 一样,都是并发收集器。虽然 ZGC 的停顿时间极短(亚毫秒级),但它的回收触发同样依赖堆内对象的分配速率。如果 DirectByteBuffer 的分配速度远高于 ZGC 能够处理并把 PhantomReference 推入队列的速度,依然会导致堆外内存无限膨胀。核心解法依然是规范 -XX:MaxDirectMemorySize 和代码层的释放。

    Q3:遇到 glibc 导致的假性内存泄漏(MALLOC_ARENA_MAX)怎么判断? Linux 默认配置下,glibc 会为每个线程分配独立的内存池(Arena)以避免锁竞争(最大数量通常是 CPU 核心数 * 8)。在 Netty 这种多线程高并发场景下,会产生大量的 64M 内存块,表现为 top 命令下 VIRT 和 RES 飙高,但 JVM NMT 显示正常。可以通过设置环境变量 MALLOC_ARENA_MAX=4 限制内存池数量,如果 RSS 显著下降,则证明是 glibc 碎片化引起的内存虚高,而非真正的内存泄漏。

  • Jenkins 生产环境雪崩排查实战:Groovy CPS 陷阱引发的 Metaspace 溢出与 K8S Agent 调度风暴

    结论先行:Jenkins Pipeline 复杂的 Groovy 闭包会导致 CPS(Continuation Passing Style)频繁进行 AST 转换,耗尽 Master Metaspace 触发 OOM。同时,K8S 插件在 Master 假死断连时产生的 Agent 创建风暴,会瞬间击穿 K8S API Server。本文通过重构 Shared Library 剥离 CPS 逻辑,并引入 JCasC 固化 K8S 动态 Agent 限流配置,彻底解决百级别并发构建下的系统雪崩问题。

    1. 故障现场:Master 假死与 K8S API Server 告警

    排查过程中接到告警,CI/CD 集群 P99 构建排队时间从平时的 5 秒飙升至 30 分钟以上。登录控制台发现 Jenkins UI 响应极其缓慢,部分页面直接 502。 联动监控大盘,发现了两个极度异常的指标:

    1. Jenkins Master JVMMetaspace 使用率在两小时内呈阶梯式上涨,直至 100% 触发 Full GC,单次 GC 停顿(STW)超过 12 秒。

    2. K8S 控制平面:API Server QPS 突增,尤其是针对 namespaces/jenkins/podsPOSTDELETE 请求,导致 API Server CPU 飙升,etcd 出现选主告警。

    进入 Jenkins Master 容器抓取现场:

    # 查看 JVM 内存状态
    jstat -gcutil $(pgrep java) 1000 5
      S0     S1     E      O      M     CCS    YGC     YGCT    FGC    FGCT    GCT   
      0.00 100.00  32.14  89.45  99.98  98.71  23412  145.312  425  312.411  457.723
    
    # 生成 Heap Dump 和 Thread Dump(保留案发现场)
    jcmd $(pgrep java) GC.heap_dump /tmp/jenkins_oom.hprof
    jcmd $(pgrep java) Thread.print > /tmp/jenkins_threads.txt
    

    日志中大量抛出 java.lang.OutOfMemoryError: Metaspace,同时伴随着 Kubernetes client: failed to create pod ... Read timeout。很明显,JVM 已经处于频繁 GC 的濒死状态。

    2. 为什么 Groovy CPS 机制会吃光 Master 的 Metaspace?

    把 Heap Dump 拖到 MAT(Memory Analyzer Tool)里分析,发现 ClassLoader 数量异常庞大,且绝大多数是由 com.cloudbees.groovy.cps.NonCPS 和 Pipeline 脚本动态生成的类。

    Jenkins Pipeline 的底层运行机制基于 CPS(Continuation Passing Style)。为了让 Pipeline 在 Jenkins Master 重启后还能从断点恢复继续执行,Jenkins 必须能够将当前执行的堆栈状态序列化到磁盘。 这就导致了一个致命陷阱:你在 Jenkinsfile 里写的每一行看似普通的 Groovy 代码,都会被 CPS 转换引擎解析重写为可以被序列化的 AST(抽象语法树)对象。

    在某次业务线提交的 Shared Library 中,发现了一段类似这样的代码:

    // 反面教材:在 CPS 方法中进行大量不可序列化对象的循环操作
    def processComplexJson(String jsonStr) {
        def jsonSlurper = new groovy.json.JsonSlurperClassic()
        def data = jsonSlurper.parseText(jsonStr)
        // 这里的 data 树结构非常复杂,且在循环中调用了 pipeline step
        data.items.each { item ->
            if (item.name.matches(".*-service-.*")) { // 正则 Matcher 不可序列化
                echo "Processing ${item.name}"       // 调用了 CPS 步骤
                // 复杂的处理逻辑...
            }
        }
    }
    

    原理解析

    1. JsonSlurper 解析出的复杂对象模型、java.util.regex.Matcher 等对象是不可序列化的。

    2. 当闭包 .each {} 内部混合调用了 Pipeline 原生 step(如 echo, sh)时,Jenkins 会尝试保存整个上下文。

    3. 每次执行构建,CPS 引擎为了处理这些无法直接解析的代码,会动态生成大量的匿名类加载到 Metaspace 中。由于这些类持有 Pipeline 的执行上下文(强引用),无法被 GC 快速回收。

    4. 并发一高,Metaspace 迅速被打爆。Master 发生长达十几秒的 STW。

    雪崩链条: Master STW -> JNLP Agent (运行在 K8S Pod 中) 的心跳超时 -> Jenkins 认为 Agent 已死,触发重连或重新分配 -> K8S Plugin 疯狂向 API Server 发起创建 Pod 请求 -> API Server 被打满 -> 旧 Agent 还在跑,新 Pod 不断创建 -> K8S 节点资源耗尽。

    3. 核心修复:Shared Library 与 K8S Agent 调优实践

    针对上述问题,我们从代码重构和配置加固两方面进行落地。当前环境为 Jenkins 2.414.3 LTS,Kubernetes Plugin 4136.v464303c7379d。

    3.1 剥离 CPS:使用 @NonCPS 与纯粹的 Java 类

    对于 Shared Library 中的数据处理逻辑,必须将纯粹的代码计算Pipeline 执行步骤隔离开。使用 @NonCPS 注解,让 Jenkins 跳过 AST 转换,按标准 JVM 字节码执行。

    import com.cloudbees.groovy.cps.NonCPS
    import groovy.json.JsonSlurperClassic
    
    // 1. 将耗时的、涉及不可序列化对象的纯计算逻辑标记为 @NonCPS
    @NonCPS
    List<String> getServicesToProcess(String jsonStr) {
        def services = []
        def jsonSlurper = new JsonSlurperClassic()
        def data = jsonSlurper.parseText(jsonStr)
    
        for (item in data.items) {
            if (item.name.matches(".*-service-.*")) {
                services.add(item.name)
            }
        }
        return services // 只返回可序列化的基本类型或标准集合
    }
    
    // 2. 在 Pipeline 步骤中通过标准 for 循环调用(不要用 .each 闭包混合 pipeline step)
    def call(String jsonStr) {
        List<String> targetServices = getServicesToProcess(jsonStr)
        for (int i = 0; i < targetServices.size(); i++) {
            def svc = targetServices[i]
            echo "Processing ${svc}"
            // 执行实际的 pipeline steps...
        }
    }
    

    3.2 阻断雪崩:JCasC 固化 K8S Agent 限流配置

    为了防止 Jenkins 在网络抖动或自身 GC 时向 K8S 发起 API DDOS 攻击,必须严格配置 K8S Plugin 的容量上限,并改用 WebSocket 代替 TCP JNLP 端口直连。 我们通过 JCasC (Jenkins Configuration as Code) 强制注入以下安全配置:

    jenkins:
      clouds:
        - kubernetes:
            name: "kubernetes"
            serverUrl: "https://kubernetes.default"
            namespace: "jenkins"
            jenkinsUrl: "http://jenkins-master.jenkins.svc.cluster.local:8080"
            # 【核心防御】开启 WebSocket,复用 HTTP 端口,避免 K8S LoadBalancer 断流导致心跳丢失
            webSocket: true 
            # 【核心防御】限制全局并发 Pod 数,保护 K8S API Server 和节点资源
            containerCapStr: "200"
            # 限制 API 请求超时时间
            readTimeout: 15
            connectTimeout: 5
            maxRequestsPerHostStr: "32"
            templates:
              - name: "base-maven"
                namespace: "jenkins"
                label: "maven-agent"
                # 限制单种模板的最大并发数
                instanceCapStr: "50" 
                containers:
                  - name: "jnlp"
                    image: "jenkins/inbound-agent:3148.v532a_7e715ee3-1"
                    workingDir: "/home/jenkins/agent"
                    resourceRequestCpu: "500m"
                    resourceLimitCpu: "2"
                    resourceRequestMemory: "1Gi"
                    resourceLimitMemory: "2Gi"
    

    同时,调整 Jenkins Master 启动参数,增大 Metaspace 并限制其无序扩张: JAVA_OPTS="-Xms8G -Xmx8G -XX:MetaspaceSize=512M -XX:MaxMetaspaceSize=1G -XX:+UseG1GC"

    应用上述修复后,P99 排队时间回落至 3 秒,Master 内存泄漏彻底消除,API Server 平稳运行。

    4. 常见问题 (FAQ)

    Q1: K8S 动态 Agent 频繁出现 JNLP connection timeout 或 offline,是什么原因? 通常有两个原因:一是中间的 Ingress/LoadBalancer 对长连接(默认 50000 TCP 端口)有 idle timeout 清理机制,导致静默断连;二是 Master 的 CPU 或内存被跑满,无法及时响应心跳。 建议解决: 启用 Kubernetes 插件的 webSocket: true 选项,让 Agent 通过 标准的 HTTP 8080 端口使用 WebSocket 与 Master 通讯,这样不仅穿透性好,还能复用 HTTP 的负载均衡和 KeepAlive 策略。

    Q2: 在动态 K8S Agent 中构建 Docker 镜像,推荐 DinD (Docker in Docker) 还是 Kaniko? 坚决抵制在 K8S 生产环境中大规模使用 DinD。DinD 需要开启 Pod 的 privileged: true 特权模式,这在任何有底线的运维体系中都是不被允许的,极易引发容器逃逸。 建议解决: 使用 Google 提供的 Kaniko。它完全在用户态执行,无需特权,直接通过解析 Dockerfile 在容器内层层构建镜像文件系统,最后 push 到 Harbor。

    Q3: 如何安全地在 JCasC YAML 中管理集群密码和 Secret? 禁止在 JCasC 的 yaml 文件里明文写 Token! 建议解决: 利用 Jenkins 的 Secret 机制结合 K8S 环境变量。在 JCasC 中使用 ${MY_SECRET} 占位符,然后在 Jenkins Master 的 Deployment 中通过 K8S Secret 挂载到环境变量。启动时 JCasC 会自动将其替换,实现配置与凭据解耦。