标签: 可观测性

  • 深入 eBPF/XDP 网络雪崩排查:Netfilter 软中断打满引发的丢包与 XDP 内核级加速防御实战

    高并发下 Netfilter 必然成为性能瓶颈。排查某次网关节点大面积丢包时,确认系海量小包打满 ksoftirqdnf_conntrack 溢出导致。直接抛弃 iptables 方案,通过 eBPF 挂载 XDP 程序在网卡驱动层(SKB 分配前)进行拦截与转发,CPU 软中断开销骤降 80%,99线延迟从 200ms 恢复至 2ms,系统吞吐量提升三个数量级。

    故障现场:ksoftirqd 榨干 CPU 与 Conntrack 溢出

    某次生产环境的高并发突发流量下,K8S Ingress 节点(OS: Ubuntu 22.04, 内核 Linux 5.15)出现大面积请求超时。前端监控显示 99 线延迟飙升至 200ms 以上,甚至出现 502/504 错误。

    登录宿主机,第一眼看系统负载:

    $ uptime
     10:14:32 up 45 days, 14:20,  2 users,  load average: 84.12, 75.33, 60.10
    

    Load Average 极高,敲击键盘都有迟滞感。直接看 CPU 消耗,top 里的 si(Soft Interrupt)指标在多个核心上死死顶在 100%,相关的进程全是 ksoftirqd/n

    %Cpu(s):  1.5 us,  3.2 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi, 95.3 si,  0.0 st
      PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
       14 root      20   0       0      0      0 R  99.9   0.0  10:23.12 ksoftirqd/1
       20 root      20   0       0      0      0 R  99.9   0.0   9:14.05 ksoftirqd/2
    

    与此同时,dmesg 中正在疯狂刷屏经典报错:

    $ dmesg -T | tail -n 5
    [Thu Oct 12 10:15:01 2023] nf_conntrack: nf_conntrack: table full, dropping packet
    [Thu Oct 12 10:15:01 2023] nf_conntrack: nf_conntrack: table full, dropping packet
    

    典型的网络软中断风暴 + 连接跟踪表打满。虽然通过 sysctl -w net.netfilter.nf_conntrack_max=2097152 临时缓解了丢包,但这只是扬汤止沸,软中断依然居高不下,节点的网络栈已经处于半瘫痪状态。

    为什么传统的 iptables/Netfilter 在高并发下必然雪崩?

    要理解这场雪崩,必须拆解 Linux 传统的网络收包路径。

    当网卡收到一个数据包时,硬中断触发后,真正的重头戏在软中断 NET_RX_SOFTIRQ。此时,内核会为每个数据包调用 __alloc_skb() 分配一个 sk_buff 结构体。这个结构体极其庞大(通常包含数百个字段),高频的内存分配和释放本身就是巨大的开销。

    紧接着,包会进入内核协议栈,穿越 Netfilter 的重重关卡(PREROUTING, INPUT, FORWARD 等)。如果是 K8S 环境,kube-proxy 写入的数万条 iptables 规则会以线性或树状(ipset)进行匹配。最致命的是 Conntrack(连接跟踪) 机制。每次建连,内核都要加锁更新连接状态表。当 PPS(每秒包数)达到数十万级别时,nf_conntrack 的自旋锁竞争会导致 CPU 缓存命中率暴跌,最终表现为 ksoftirqd 吃满 CPU,后续的包连 sk_buff 都分配不到,直接在网卡 Ring Buffer 处被丢弃。

    可观测性介入:用 eBPF/bpftrace 精准定位丢包点

    在实施改造前,我们需要硬核的数据佐证。只看 dmesg 不够,到底包是在协议栈的哪一步被 Drop 的? 利用 bpftrace 编写一行脚本,直接 Hook 内核的 kfree_skb 函数(内核丢弃数据包时通常会调用它),并打印调用栈:

    # 依赖环境: bpftrace 0.14.0+
    $ bpftrace -e 'kprobe:kfree_skb /comm == "ksoftirqd/1"/ { @[kstack] = count(); }'
    

    运行 10 秒后 Ctrl+C 停止,输出的核心堆栈如下:

    @[
        kfree_skb+1
        nf_conntrack_in+1345
        ipv4_conntrack_in+28
        nf_hook_slow+66
        ip_rcv+165
        __netif_receive_skb_core+2180
        net_rx_action+354
        __do_softirq+215
        run_ksoftirqd+42
    ]: 45210
    

    数据确凿:短短 10 秒内,在 nf_conntrack_in 链路下触发了 4.5 万次 kfree_skb。传统的防御方案(如加机器、调大 sysctl 参数)在百万级 PPS 面前毫无招架之力。必须进行降维打击——绕过 sk_buff 和 Netfilter。

    降维打击:XDP (eXpress Data Path) 零拷贝拦截实战

    XDP 是基于 eBPF 的一项技术,它允许我们在网卡驱动层,即数据包刚通过 DMA 拷贝到内存,尚未分配 sk_buff 之前,执行我们自定义的 eBPF 程序。

    排查过程中,我们发现异常流量具有明显的端口和 IP 聚集特征。直接编写 XDP 程序,对恶意流量执行 XDP_DROP,对合法突发流量直接在驱动层打标或放行。

    以下是精简后的 XDP C 代码(xdp_filter.c),实现对特定目标端口(如 8080)的异常小包直接 Drop:

    #include <linux/bpf.h>
    #include <linux/if_ether.h>
    #include <linux/ip.h>
    #include <linux/tcp.h>
    #include <linux/in.h>
    #include <bpf/bpf_helpers.h>
    
    SEC("xdp")
    int xdp_drop_prog(struct xdp_md *ctx) {
        // 获取数据包的起止指针
        void *data_end = (void *)(long)ctx->data_end;
        void *data     = (void *)(long)ctx->data;
    
        // 解析以太网头部
        struct ethhdr *eth = data;
        if (data + sizeof(*eth) > data_end)
            return XDP_PASS;
    
        // 仅处理 IPv4
        if (eth->h_proto != bpf_htons(ETH_P_IP))
            return XDP_PASS;
    
        // 解析 IP 头部
        struct iphdr *iph = data + sizeof(*eth);
        if ((void *)iph + sizeof(*iph) > data_end)
            return XDP_PASS;
    
        // 解析 TCP 头部
        if (iph->protocol == IPPROTO_TCP) {
            struct tcphdr *tcph = (void *)iph + sizeof(*iph);
            if ((void *)tcph + sizeof(*tcph) > data_end)
                return XDP_PASS;
    
            // 如果目标端口是 8080,直接在网卡驱动层丢弃 (模拟黑洞)
            if (tcph->dest == bpf_htons(8080)) {
                // 可在此处加入 eBPF Map 统计丢包数量
                return XDP_DROP;
            }
        }
    
        // 其他数据包正常进入协议栈
        return XDP_PASS;
    }
    
    char _license[] SEC("license") = "GPL";
    

    编译与挂载: 利用 Clang 将 C 代码编译为 BPF 字节码,并通过 iproute2 工具直接挂载到宿主机物理网卡(如 eth0)。

    # 编译 (需安装 clang 12+ 和 linux-headers)
    $ clang -O2 -g -Wall -target bpf -c xdp_filter.c -o xdp_filter.o
    
    # 以 Native 模式挂载到 eth0
    $ ip link set dev eth0 xdp obj xdp_filter.o sec xdp
    
    # 查看挂载状态
    $ ip link show eth0
    2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 xdp/id:45 qdisc mq state UP mode DEFAULT group default qlen 1000
        link/ether 00:16:3e:xx:xx:xx brd ff:ff:ff:ff:ff:ff
        prog/xdp id 45 tag 8fxxxxxx
    

    效果对比: 挂载 XDP 后,恶意流量在网卡驱动层即被截断,根本不会触发 alloc_skb,更不会进入 Netfilter。

    • ksoftirqd 的 CPU 占用率从 100% 瞬间暴降至 15% 左右。

    • dmesgnf_conntrack 报错消失。

    • 合法业务流量的 99 线延迟恢复到健康的 2ms 范围内。

    常见问题 (FAQ)

    Q1:XDP 的 Generic 模式和 Native 模式有什么性能差异? Generic 模式(xdpgeneric)是内核网络栈模拟的 XDP,此时 sk_buff 已经分配,性能提升有限,主要用于测试或不支持 XDP 的网卡驱动。Native 模式(xdp)是在网卡驱动层实现,包刚放入内存就触发,零拷贝,性能是 Generic 模式的 4-5 倍。生产环境必须确保网卡驱动(如 ixgbe, mlx5)支持 Native XDP。

    Q2:eBPF Map 并发读写时如何保证数据一致性? 在多核并发场景下,统计包量等操作直接更新普通的 Array/Hash Map 会有竞态问题。应当使用 BPF_MAP_TYPE_PERCPU_ARRAYBPF_MAP_TYPE_PERCPU_HASH。这种 Map 会为每个 CPU 核心维护独立的数据副本,更新时无锁,用户态读取时再遍历所有 CPU 的值进行汇总。

    Q3:使用 Cilium 替换 kube-proxy 后,NodePort 流量依然有延迟,如何排查? Cilium 默认并不全量开启底层 XDP 加速。如果 NodePort 流量仍有延迟,需检查 Cilium Agent 配置是否启用了 bpf-node-portkube-proxy-replacement=strict。可以通过 cilium status 查看 XDP 加速状态,并使用 cilium bpf nat list 确认底层的 eBPF NAT 表是否正常接管了 iptables 规则。如果网卡不支持 Native XDP,Cilium 会退化到 TC (Traffic Control) 层的 eBPF hook,性能会打折扣。

  • 突破 OpenTelemetry Collector 内存瓶颈:万级 QPS 下的尾部采样策略与 Trace-Log 关联机制深度解析

    在高并发场景接入 OpenTelemetry 时,全量采集必定导致 Collector 频繁 OOM 与存储雪崩。本文的核心结论:必须采用 loadbalancing 结合双层采样(头部概率 + 尾部兜底)架构,配合基于内存限额的批处理机制。同时,利用 OTel Agent 的 MDC 自动注入,并修正自定义线程池的 Context 传递,才能实现 100% 异常 Trace 捕获及 Trace-Log 精准关联。

    某次核心网关服务(约 50k QPS)接入 OpenTelemetry(下文简称 OTel)后,监控告警迅速亮起红灯。部署在集群内的 OTel Collector 容器频繁发生 OOMKilled,Load Average 飙升至 40 以上,导致大面积的 Span 丢失。

    查看 Collector 容器的报错日志,满屏的内存申请失败和连接重置:

    2023-10-18T10:23:45.102Z error   receiver/otlp   error reading from server: read tcp 10.244.2.10:4317->10.244.3.15:58392: read: connection reset by peer
    2023-10-18T10:23:46.001Z warn    memorylimiter   Memory usage is strictly above the limit. Dropping data. {"kind": "processor", "name": "memory_limiter", "usage": 4096, "limit": 4096}
    

    单纯增加 Collector 的内存只是延缓死亡时间。分布式追踪工程化落地的核心难点,不在于如何生成数据,而在于如何克制地丢弃数据

    为什么单节点尾部采样(Tail Sampling)注定会触发 OOM?

    为了保留请求报错(HTTP 5xx)和慢请求(Latency > 1s)的完整调用链路,很多团队会直接开启 OTel 的 tail_sampling 处理器。但尾部采样的底层逻辑是:必须等待一个 Trace 的所有 Span 收集完毕(或达到超时时间),才能做出是否保留的采样决策。

    假设当前系统的全局 QPS 为 50,000,每个请求平均产生 10 个 Span,每个 Span 大小约 1KB。 如果 tail_sampling 的决策等待时间(decision_wait)设置为默认的 10 秒。那么 Collector 在内存中至少需要维持 10 秒的在途数据: 50,000 * 10 * 1KB * 10s ≈ 5GB

    这只是理论上的最小内存。遇到网络抖动、流量突增或者垃圾回收(GC)停顿,内存占用会轻易突破 10GB。如果你只部署了几个 OTel Collector 实例,OOM 是必然结果。

    更致命的是,在 Kubernetes 部署架构下,网关的请求会通过 Service 负载均衡随机打到后端的 OTel Collector 实例上。同一个 Trace 的不同 Span,可能会落在不同的 Collector 节点上。 这导致单节点的 tail_sampling 永远无法拼凑出完整的 Trace,最终因为等不到数据而将关键 Trace 判定为不完整并丢弃(即产生大量的孤儿 Span)。

    破局:两层架构与基于 TraceID 的路由分发

    要解决这个问题,必须对 Collector 的架构进行解耦,分为 Gateway CollectorProcessor Collector 两层(基于 OpenTelemetry Collector Contrib v0.87.0)。

    1. 第一层:Gateway Collector(轻量级,只做路由) 接收所有 Agent 发来的全量数据,使用 loadbalancing exporter 根据 trace_id 进行哈希一致性路由,确保同一个 Trace 的所有 Span 被精确转发到第二层的同一个实例。

    2. 第二层:Processor Collector(重负载,做尾部采样) 接收到完整的 Trace 数据后,在内存中进行聚合与尾部采样决策。

    Gateway Collector 核心配置片段

    receivers:
      otlp:
        protocols:
          grpc:
            endpoint: 0.0.0.0:4317
    
    processors:
      memory_limiter:
        check_interval: 1s
        limit_mib: 2048
        spike_limit_mib: 512
    
    exporters:
      # 关键配置:根据 trace_id 进行一致性哈希负载均衡
      loadbalancing:
        protocol:
          otlp:
            tls:
              insecure: true
        resolver:
          dns:
            hostname: otel-processor-headless.monitoring.svc.cluster.local
            port: 4317
        routing_key: "traceID"
    
    service:
      pipelines:
        traces:
          receivers: [otlp]
          processors: [memory_limiter]
          exporters: [loadbalancing]
    

    Processor Collector 核心配置片段

    在第二层,我们通过 tail_sampling 组合多种策略:保留所有的 Error 链路,保留耗时超过 1000ms 的链路,其余正常链路按 1% 概率采样。

    processors:
      tail_sampling:
        decision_wait: 10s # 等待 Trace 收集完整的时间
        num_traces: 100000 # 内存中最大维持的 Trace 数量
        expected_new_traces_per_sec: 10000 # 预估新 Trace 速率,用于预分配内存
        policies:
          [
            {
              name: retain-errors,
              type: status_code,
              status_code: {status_codes: [ERROR]}
            },
            {
              name: retain-slow,
              type: latency,
              latency: {threshold_ms: 1000}
            },
            {
              name: retain-probabilistic,
              type: probabilistic,
              probabilistic: {sampling_percentage: 1} # 正常流量保留 1%
            }
          ]
    
      batch:
        send_batch_size: 8192
        timeout: 1s
    
    exporters:
      otlp/storage:
        endpoint: jaeger-collector:4317
        tls:
          insecure: true
    
    service:
      pipelines:
        traces:
          receivers: [otlp]
          # 必须严格遵守 memory_limiter -> tail_sampling -> batch 的顺序
          processors: [memory_limiter, tail_sampling, batch]
          exporters: [otlp/storage]
    

    注意:memory_limiter 必须放在第一位进行自我防御,防止突发流量直接打死进程。

    补齐可观测的拼图:Trace 与 Log 的强关联

    仅仅收集到 Trace 是不够的。在实战排查中,我们需要通过 TraceID 精准检索到那一刻的业务日志。

    对于 Java 应用,OTel Java Agent(v1.30.0+)默认会自动将 trace_idspan_id 注入到 MDC(Mapped Diagnostic Context)中。但这里有两个常见的踩坑点:

    1. 日志格式未配置占位符

    如果在 logback-spring.xmllog4j2.xml 中没有修改 pattern,打印出来的日志依然是匿名的。必须在 Pattern 中显式提取 MDC 的值:

    <!-- Logback 示例 -->
    <appender name="CONSOLE" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <!-- %X{trace_id} 和 %X{span_id} 是 OTel 默认注入的 Key -->
            <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] %-5level [traceId=%X{trace_id} spanId=%X{span_id}] %logger{36} - %msg%n</pattern>
        </encoder>
    </appender>
    

    2. 异步线程池导致上下文丢失

    这是业务开发最容易忽略的痛点。当业务代码使用 CompletableFuture 或自定义的 ThreadPoolExecutor 时,由于 MDC 底层依赖 ThreadLocal,不同线程间无法自然继承,导致日志中的 traceId 突然断代变为空白。

    不要企图去魔改 ThreadPoolExecutor。标准的做法是利用 OTel API 提供的 Context 进行上下文传播包装:

    import io.opentelemetry.context.Context;
    
    // 错误写法:在新线程中丢失 Trace 上下文
    executor.submit(() -> {
        log.info("Processing async task"); // 这里的日志 traceId 会是空的
    });
    
    // 正确写法:使用当前 Context 包装 Runnable
    Runnable wrappedRunnable = Context.current().wrap(() -> {
        log.info("Processing async task"); // 这里能准确关联到父级 TraceId
    });
    executor.submit(wrappedRunnable);
    

    对于 Spring 的 @Async 注解,可以通过实现 TaskDecorator 并在配置类中注入,实现自动的上下文转移,这里不再贴冗长的 Spring 模板代码。

    常见问题 (FAQ)

    Q1:使用 tail_sampling 后,在 Jaeger UI 上偶尔还是会看到一些断掉的“孤儿 Span”,为什么? A: 通常是因为服务优雅下线或 Collector 重启期间,上游数据流被打断。另一个常见原因是 decision_wait 设得太短。如果业务逻辑中有一个长达 15 秒的外部调用,而等待时间只有 10 秒,那么 10 秒后的 Span 就会变成孤儿。可以根据 99 线延迟适当拉长 decision_wait,但要做好内存预估。

    Q2:如果不想部署复杂的 Collector 集群,只在客户端做头部采样(Head Sampling),有办法保留错误日志吗? A: 纯头部采样是确定性采样(在请求刚进入时就决定是否采样),此时并不知道后续是否会报错。一种妥协方案是:客户端不全量采样,但利用 OTel 的 Span.current().recordException(e) 和业务全局异常处理器联动。但这只能记录到报错那一刻的 Span,无法回溯完整的调用链,这是头部采样的硬伤。

    Q3:底层存储用 ElasticSearch 还是 ClickHouse? A: 坚决推荐 ClickHouse。Trace 数据的特点是:海量写入、弱更新、固定维度的分析。ES 的倒排索引在应对数万 TPS 的 Span 写入时会产生极大的 CPU 和 IO 损耗,且磁盘占用通常是 CH 的 3-5 倍。借助开源的 jaeger-clickhouse 插件或者直接用 SigNoz 等原生基于 CH 的可观测产品,能大幅降低存储成本。

    Q4:为什么加入了 memory_limiter,Collector 还是会被 OOMKilled? A: 检查你的 limit_mib 和容器的 Limit 配置。通常建议 limit_mib 设置为容器内存 Limit 的 70%-80%。因为 Golang 的 GC 是有延迟的,memory_limiter 触发 GC 和拦截请求的瞬间,系统底层的实际物理内存占用可能会有个短暂的尖峰。如果不留缓冲,就会被内核直接杀掉。