标签: JCasC

  • 深入 Jenkins Pipeline 雪崩排查:CPS 转换引发的 Master JVM OOM 与 Shared Library 全局变量污染实战

    核心结论:Jenkins Pipeline 中的 Groovy 并非标准 Groovy,底层强制执行 CPS(Continuation Passing Style)转换以支持跨节点和重启的断点续跑。在 Shared Library 中滥用大对象、复杂闭包或未实现 Serializable 的原生 Java 类,会使 Master JVM 在状态序列化时直接 OOM。必须通过 @NonCPS 隔离重度计算逻辑,并结合 JCasC 实现基础设施不可变。

    故障现场:Master 的静默死亡

    排查过程中接到告警,某核心业务构建集群的 Jenkins Master(版本 2.440.1 LTS,JDK 17)Load Average 突然飙升至 80+,UI 完全无响应,所有挂载在 K8S 上的动态 Agent 任务卡死在 Pending 或执行态断联。

    登机排查,直接看 JVM 指标:

    # jstat -gcutil <pid> 1000 5
      S0     S1     E      O      M     CCS    YGC     YGCT    FGC    FGCT     GCT   
      0.00 100.00 100.00  99.98  95.21  92.14  14521  124.512   512  1421.112 1545.624
    

    Old Gen 打满,FGC 极其频繁且回收率几乎为 0。查看业务监控看板,并发构建数仅为平时的高峰期均值(~150 concurrent builds),排除了纯粹的并发量冲击。

    立刻通过 jmap -dump:format=b,file=heap.hprof 抓取现场,并重启服务恢复业务。 MAT 分析 Heap Dump 显示,com.cloudbees.groovy.cps.Nextjava.util.LinkedHashMap 对象占据了 85% 的堆内存。进一步展开引用链,发现全部指向 workflow-cps 插件的 ProgramData 对象。这说明:Pipeline 的状态持久化机制正在吞噬内存。

    为什么简单的 Groovy 循环会拖垮 Jenkins Master?

    很多人习惯把 Jenkins 当成一个能够运行 Groovy 脚本的普通 Cron Server,这在 Pipeline As Code 时代是致命的认知误区。

    为了实现 Pipeline 可以在 Master 重启后从中断处继续执行(Resiliency),Jenkins 引入了 CPS(Continuation Passing Style)转换。当你编写一段看似普通的 for 循环时,Jenkins 在编译期会对抽象语法树(AST)进行劫持和重写:

    1. 每执行一行代码,CPS 引擎都会将当前作用域内的所有局部变量、调用栈打包成一个 Continuation 对象。

    2. 这些对象会被序列化(基于 XStream)并持久化到磁盘(通常是 builds//program.dat),同时缓存在内存中。

    问题代码最终定位在业务团队近期提交的 Shared Library vars/deployK8s.groovy 中:

    // 典型的夺命代码:全局作用域的大字典解析 + 跨节点持有
    def call(String env) {
        // 1. 读取并解析一个高达 5MB 的 Kubernetes Manifest 集合字典
        def hugeManifestMap = readYaml(file: "manifests/all-services.yaml")
    
        // 2. 在外层作用域遍历
        hugeManifestMap.each { svcName, config ->
            node('k8s-agent') { // 3. 跨越节点上下文
                sh "echo Deploying ${svcName}"
                // ... 复杂的 YAML 替换与 kubectl apply
            }
        }
    }
    

    底层原理解析: 当上述代码执行到 node('k8s-agent') 触发跨节点调度时,Pipeline 会挂起当前线程。此时,CPS 必须保存当前的环境状态以便稍后恢复。而 hugeManifestMap 是闭包外层的局部变量,CPS 不得不把这个 5MB 的嵌套 LinkedHashMap 及其对应的迭代器对象完整序列化。 在 150 个并发任务叠加下,这导致了极其可怕的写放大和内存膨胀:每次 sh 步骤执行,CPS 都要在内存里克隆并序列化这个巨大的上下文,最终瞬间撑爆 Master 的 JVM 堆。

    防御性架构重构与最佳实践

    针对这种滥用 Shared Library 引发的雪崩,必须在代码规范和基础设施配置两方面做防御。

    1. 使用 @NonCPS 隔离不可序列化与重度逻辑

    对于不需要断点续跑的纯计算、数据转换、大对象解析逻辑,强制使用 @NonCPS 注解。被 @NonCPS 标记的方法会在普通的 Java 线程池中作为原生代码执行,不会进行状态序列化。

    修复后的 Shared Library 实践:

    import com.cloudbees.groovy.cps.NonCPS
    
    def call(String env) {
        // 仅在局部获取所需的小数据集合,避免整个大字典逃逸到 CPS 上下文
        List<String> svcNames = extractServiceNames("manifests/all-services.yaml")
    
        for (int i = 0; i < svcNames.size(); i++) {
            def svc = svcNames[i]
            node('k8s-agent') {
                sh "echo Deploying ${svc}"
                // 每次部署仅传递当前需要的字符串对象
            }
        }
    }
    
    @NonCPS
    List<String> extractServiceNames(String filePath) {
        // 这里使用标准的 Java/Groovy 解析逻辑
        // 不会被 CPS 劫持,执行极快,不占用 Pipeline 持久化内存
        def parser = new org.yaml.snakeyaml.Yaml()
        def rawMap = parser.load(new File(filePath).text)
        return rawMap.keySet().toList()
    }
    

    注:在 @NonCPS 方法中绝对不能调用任何 Pipeline Step(如 sh, echo, node),否则会导致 IllegalStateException 或静默失败。

    2. JCasC 声明式治理 Shared Library

    为了避免通过 Jenkins UI 手工配置 Shared Library 带来的不可追溯和版本混乱,我们全面采用 Jenkins Configuration as Code (JCasC) 来固化基础设施。 将全局 Shared Library 配置下沉到不可变的代码仓库中(jcasc/jenkins.yaml):

    unclassified:
      globalLibraries:
        libraries:
        - defaultVersion: "v1.5.2" # 严禁使用 master/main 分支,必须绑定 Tag
          name: "ops-shared-lib"
          retriever:
            modernSCM:
              scm:
                git:
                  credentialsId: "git-bot-token"
                  id: "shared-lib-scm"
                  remote: "https://gitlab.internal.com/devops/jenkins-shared-library.git"
                  traits:
                  - gitBranchDiscovery()
          # 开启缓存以减轻拉取对 Master 的 I/O 压力
          cachingConfiguration:
            refreshTimeMinutes: 1440
    

    配合 K8S Helm Chart 部署 Jenkins,任何配置变更只能通过提交 MR 修改此 YAML 来触发 Pod 滚动更新,彻底掐断了手工污染配置的可能。

    常见问题 (FAQ)

    Q1:Pipeline 中经常出现 java.io.NotSerializableException: java.util.regex.Matcher 报错,如何根治? 这是由于正则表达式的 Matcher 对象内部包含 native 指针引用,无法通过 XStream 序列化。如果代码写成 def matcher = text =~ /pattern/,且该变量跨越了 CPS 步骤(例如在 sh 之前定义并在其后使用),就会报错。 解决思路:将正则匹配逻辑封装到 @NonCPS 方法中返回基础类型(String/Boolean),或者在需要跨步骤时主动置空:matcher = null

    Q2:Jenkins Master 异常重启后,K8S 上会有大量状态为 Running 的僵尸 Agent Pod,如何自动清理? 在动态 Agent 架构中,Master 宕机会导致 JNLP 长连接断开。如果不做处理,这些 Pod 将长期挂起。 在 JCasC 的 podTemplate 配置中,务必显式设置 activeDeadlineSeconds,并通过 kubernetes-plugin 的清理策略来兜底:

    jenkins:
      clouds:
        - kubernetes:
            name: "k8s-cluster"
            serverUrl: "https://kubernetes.default"
            # 定义全局 Agent Pod 的最长存活时间(例如 2 小时)
            podRetention: "never" 
    

    同时在业务的 yaml 中确保 activeDeadlineSeconds: 7200 兜底,防止挂起任务长期吃空节点计算资源。

    Q3:如何本地单元测试 Jenkins Shared Library,避免每次都要上生产环境试错? 强推 JenkinsPipelineUnit 框架。可以在本地使用 Spock/JUnit 编写测试用例,框架会模拟 CPS 引擎和所有的内置步骤(sh, node, readYaml)。通过模拟返回结果并断言调用栈,可以在本地完成 90% 的逻辑校验,彻底告别在 Jenkins 上盲目触发几十次构建来 debug 的窘境。

  • 深入 Jenkins 动态 Agent 调度延迟:K8S Pod 启动风暴引发的 JNLP 连接超时与 Master 线程耗尽排查实战

    高并发 CI/CD 场景下,Jenkins K8S 动态 Agent 极易因 Pod 启动风暴引发雪崩。本文核心结论:当并发构建量突增时,基于传统的 TCP 50000 端口进行 JNLP 通信会导致大量半连接和路由超时;通过将 Remoting 协议切换为 WebSocket,并调优 fabric8 客户端并发数与 K8S Cloud 的 containerCap,可彻底根治 Agent 频繁掉线与 Master 线程耗尽问题。

    故障现场:Agent 陷入“创建-离线-销毁”的死循环

    某次核心业务线进行大版本多分支并发验证,短时间内触发了超过 300 个 Pipeline 构建任务。监控大盘显示,Jenkins Master(版本 2.426.3-lts)的 Load Average 瞬间飙升至 40+,大量构建任务处于 Pending 状态。

    观察 K8S 集群发现,Kubernetes Plugin 确实在疯狂下发 Pod 创建请求,但现象极为诡异:

    1. Pod 能够被 K8S 调度并启动,进入 Running 状态。

    2. Pod 内的 jnlp 容器存活约 100 秒后,打印 Terminated 异常并自动退出。

    3. Jenkins Master 认为 Agent 离线,再次向 K8S 申请新建 Pod。

    4. 整个集群陷入了毫无意义的资源消耗死循环,API Server QPS 异常突增。

    提取出错 Agent Pod 内 jnlp 容器的日志:

    INFO: Locating server among [http://jenkins-master.cicd.svc.cluster.local:8080/]
    INFO: Trying protocol: JNLP4-connect
    WARNING: Could not connect to jenkins-master.cicd.svc.cluster.local:50000
    java.net.ConnectException: Connection timed out (Connection timed out)
        at java.base/sun.nio.ch.Net.connect0(Native Method)
        at hudson.remoting.Engine.connect(Engine.java:544)
        at hudson.remoting.Engine.innerRun(Engine.java:375)
    

    深度追踪:为什么 K8S Agent 能够正常拉起,却始终无法完成 JNLP 注册?

    从日志来看,这是一个典型的网络连通性报错,但问题并没有那么表面。Jenkins 的 Master-Agent 架构依赖 Remoting 协议,其传统的握手流程如下:

    1. Agent 启动时,通过 HTTP(S) 请求 Master 的 TCP port API,获取 JNLP 加密凭证(Secret)和专用的 TCP 通信端口(默认 50000)。

    2. Agent 与 Master 的 50000 端口建立长连接,维持心跳并接收 Pipeline 执行指令。

    1. 传统 TCP 50000 端口的架构缺陷

    在 K8S 环境中,Master 通常隐藏在 Ingress 或 Service 之后。如果仅仅暴露 HTTP 8080 端口,而没有在 Ingress 上透传 50000 端口的 TCP 流(需配置 Ingress Nginx 的 tcp-services ConfigMap),Agent 在第二步就会直接被拒绝。

    即便 Service 层开放了 50000 端口,当数百个 Agent 同时发起 TCP 握手时,若底层网络 CNI 插件(如 Calico 或 Cilium)遇到 iptables/eBPF 规则更新延迟,也会导致 SYN 报文被 Drop,进而引发 Connection timed out

    2. Jenkins Master 线程池耗尽

    排查过程中,直接在 Jenkins Master 宿主机抓取 jstack,发现大量 Jetty HTTP 线程处于 BLOCKED 状态:

    "qtp12345678-100" prio=10 tid=0x00007f8a1c000000 nid=0x1a2b waiting for monitor entry [0x00007f8a11234000]
       java.lang.Thread.State: BLOCKED (on object monitor)
        at org.csanchez.jenkins.plugins.kubernetes.KubernetesCloud.provision(KubernetesCloud.java:650)
        - waiting to lock <0x00000007a1b2c3d0> (a java.lang.Object)
        at hudson.model.NodeProvisioner.update(NodeProvisioner.java:310)
    

    Kubernetes Plugin(版本 4136.vca_b_3203a_5103)底层使用 fabric8 K8S 客户端。默认情况下,fabric8 的 HTTP 客户端(OkHttp)对同一 Host 的并发连接数有严格限制。当并发创建 Pod 请求积压时,不仅阻塞了 Jenkins NodeProvisioner 的调度线程,更拖垮了 Master 响应 Agent HTTP JNLP 请求的能力,导致即使网络是通的,Agent 也因 Master 响应超时而注册失败。

    防御性架构重构与 JCasC 落地

    要从根本上解决高并发下的 Agent 调度雪崩,必须切断对独立 TCP 端口的依赖,并对 K8S Plugin 进行限流防爆。

    1. 抛弃独立 TCP 端口,全面启用 WebSocket

    Jenkins 2.222+ 已原生支持通过 WebSocket 传输 Remoting 协议。启用后,Agent 的通信将直接复用 HTTP(S) 的 8080/443 端口,无需额外配置 TCP 转发,完美穿透 Ingress 与负载均衡器,且极大降低了网络组件的连接跟踪(Conntrack)压力。

    2. JCasC (Jenkins Configuration as Code) 最佳实践

    通过 JCasC 固化 Kubernetes Cloud 的防御性配置。以下为排查后的标准配置片段,重点关注 webSocket 与容量控制参数:

    jenkins:
      clouds:
        - kubernetes:
            name: "k8s-cluster"
            serverUrl: "https://kubernetes.default"
            # 强制启用 WebSocket 复用 HTTP 端口
            webSocket: true 
            # Master 并发创建 Agent 的上限,避免 API Server 与 fabric8 线程池被击穿
            containerCapStr: "100" 
            # 连接超时与读取超时调优
            connectTimeout: 5
            readTimeout: 15
            templates:
              - name: "base-agent"
                namespace: "jenkins-agents"
                label: "k8s-agent"
                # 故障排查关键:任务失败后保留 Pod 10分钟,以便抓取现场日志
                podRetention: "OnFailure" 
                containers:
                  - name: "jnlp"
                    image: "jenkins/inbound-agent:3148.v532a_7e715ee3-1"
                    workingDir: "/home/jenkins/agent"
                    resourceRequestCpu: "500m"
                    resourceLimitCpu: "1000m"
                    resourceRequestMemory: "512Mi"
                    resourceLimitMemory: "1024Mi"
    

    3. JVM 与底层客户端参数调优

    为了防止 fabric8 客户端在极端并发下卡死,需要在 Jenkins Master 的启动参数(JAVA_OPTS)中注入以下调优指令,突破 OkHttp 的并发瓶颈:

    # 提升 Kubernetes Client 对单个后端(API Server)的并发连接数限制
    -Dkubernetes.client.maxConcurrentRequests=200
    -Dkubernetes.client.maxConcurrentRequestsPerHost=100
    # 禁用 Jenkins 旧版 Remoting 协议,减少安全面攻击和不必要的协议回退
    -Djenkins.slaves.JnlpSlaveAgentProtocol3.enabled=false
    -Djenkins.slaves.JnlpSlaveAgentProtocol4.enabled=true
    

    常见问题 (FAQ)

    Q1:Pipeline 执行时频繁报 NotSerializableException,如何解决? 这是由于 Jenkins 的 CPS(Continuation Passing Style)引擎在持久化 Pipeline 状态时,遇到了无法序列化的 Java 对象(如 java.util.regex.Matcher、数据库 Connection、或是非序列化的自定义类)。 解决: 永远不要在 nodestage 闭包跨越处传递这类对象;如果必须在代码块中使用复杂逻辑,请将该逻辑抽取为独立函数,并打上 @NonCPS 注解,让其在标准 JVM 堆栈中执行,而非被 CPS 引擎拦截。

    Q2:更新了 Jenkins Shared Library 的代码,但在已缓存的 Job 中不生效,必须重启 Jenkins 吗? 不需要。如果是隐式加载(Global Shared Libraries),Jenkins 默认会开启基于分支/标签的缓存。如果在 JCasC 中配置了 Library,务必检查 implicit: truedefaultVersion: "master" 的设置。如果是通过 @Library('[email protected]') _ 显式加载,建议采用基于 Git Tag 或 Commit Hash 的不可变版本号,而不是依赖分支名(如 master),以彻底规避 Classloader 缓存未刷新的问题。

    Q3:通过 JCasC 动态 Reload 配置时,会导致正在运行的 Pipeline 中断吗? 绝大多数配置(如 Views, Jobs 模板, Cloud 设置)的 Reload 是平滑的。但如果你在 JCasC 中修改了 securityRealm(安全域认证机制)或 authorizationStrategy,Jenkins 会销毁当前所有的安全上下文,这会直接导致正在执行的 Remoting Channel 被强行终止,引发 Agent 断联和任务报错。强规则: 绝对禁止在有核心业务构建运行时热重载安全相关配置。