分布式追踪 – HDUO Lab

在高并发场景接入 OpenTelemetry 时，全量采集必定导致 Collector 频繁 OOM 与存储雪崩。本文的核心结论：必须采用 loadbalancing 结合双层采样（头部概率 + 尾部兜底）架构，配合基于内存限额的批处理机制。同时，利用 OTel Agent 的 MDC 自动注入，并修正自定义线程池的 Context 传递，才能实现 100% 异常 Trace 捕获及 Trace-Log 精准关联。

某次核心网关服务（约 50k QPS）接入 OpenTelemetry（下文简称 OTel）后，监控告警迅速亮起红灯。部署在集群内的 OTel Collector 容器频繁发生 OOMKilled，Load Average 飙升至 40 以上，导致大面积的 Span 丢失。

查看 Collector 容器的报错日志，满屏的内存申请失败和连接重置：

2023-10-18T10:23:45.102Z error   receiver/otlp   error reading from server: read tcp 10.244.2.10:4317->10.244.3.15:58392: read: connection reset by peer
2023-10-18T10:23:46.001Z warn    memorylimiter   Memory usage is strictly above the limit. Dropping data. {"kind": "processor", "name": "memory_limiter", "usage": 4096, "limit": 4096}

单纯增加 Collector 的内存只是延缓死亡时间。分布式追踪工程化落地的核心难点，不在于如何生成数据，而在于如何克制地丢弃数据。

为什么单节点尾部采样（Tail Sampling）注定会触发 OOM？

为了保留请求报错（HTTP 5xx）和慢请求（Latency > 1s）的完整调用链路，很多团队会直接开启 OTel 的 tail_sampling 处理器。但尾部采样的底层逻辑是：必须等待一个 Trace 的所有 Span 收集完毕（或达到超时时间），才能做出是否保留的采样决策。

假设当前系统的全局 QPS 为 50,000，每个请求平均产生 10 个 Span，每个 Span 大小约 1KB。如果 tail_sampling 的决策等待时间（decision_wait）设置为默认的 10 秒。那么 Collector 在内存中至少需要维持 10 秒的在途数据： 50,000 * 10 * 1KB * 10s ≈ 5GB

这只是理论上的最小内存。遇到网络抖动、流量突增或者垃圾回收（GC）停顿，内存占用会轻易突破 10GB。如果你只部署了几个 OTel Collector 实例，OOM 是必然结果。

更致命的是，在 Kubernetes 部署架构下，网关的请求会通过 Service 负载均衡随机打到后端的 OTel Collector 实例上。同一个 Trace 的不同 Span，可能会落在不同的 Collector 节点上。 这导致单节点的 tail_sampling 永远无法拼凑出完整的 Trace，最终因为等不到数据而将关键 Trace 判定为不完整并丢弃（即产生大量的孤儿 Span）。

破局：两层架构与基于 TraceID 的路由分发

要解决这个问题，必须对 Collector 的架构进行解耦，分为 Gateway Collector 和 Processor Collector 两层（基于 OpenTelemetry Collector Contrib v0.87.0）。

第一层：Gateway Collector（轻量级，只做路由） 接收所有 Agent 发来的全量数据，使用 loadbalancing exporter 根据 trace_id 进行哈希一致性路由，确保同一个 Trace 的所有 Span 被精确转发到第二层的同一个实例。
第二层：Processor Collector（重负载，做尾部采样） 接收到完整的 Trace 数据后，在内存中进行聚合与尾部采样决策。

Gateway Collector 核心配置片段

receivers:
  otlp:
    protocols:
      grpc:
        endpoint: 0.0.0.0:4317

processors:
  memory_limiter:
    check_interval: 1s
    limit_mib: 2048
    spike_limit_mib: 512

exporters:
  # 关键配置：根据 trace_id 进行一致性哈希负载均衡
  loadbalancing:
    protocol:
      otlp:
        tls:
          insecure: true
    resolver:
      dns:
        hostname: otel-processor-headless.monitoring.svc.cluster.local
        port: 4317
    routing_key: "traceID"

service:
  pipelines:
    traces:
      receivers: [otlp]
      processors: [memory_limiter]
      exporters: [loadbalancing]

Processor Collector 核心配置片段

在第二层，我们通过 tail_sampling 组合多种策略：保留所有的 Error 链路，保留耗时超过 1000ms 的链路，其余正常链路按 1% 概率采样。

processors:
  tail_sampling:
    decision_wait: 10s # 等待 Trace 收集完整的时间
    num_traces: 100000 # 内存中最大维持的 Trace 数量
    expected_new_traces_per_sec: 10000 # 预估新 Trace 速率，用于预分配内存
    policies:
      [
        {
          name: retain-errors,
          type: status_code,
          status_code: {status_codes: [ERROR]}
        },
        {
          name: retain-slow,
          type: latency,
          latency: {threshold_ms: 1000}
        },
        {
          name: retain-probabilistic,
          type: probabilistic,
          probabilistic: {sampling_percentage: 1} # 正常流量保留 1%
        }
      ]

  batch:
    send_batch_size: 8192
    timeout: 1s

exporters:
  otlp/storage:
    endpoint: jaeger-collector:4317
    tls:
      insecure: true

service:
  pipelines:
    traces:
      receivers: [otlp]
      # 必须严格遵守 memory_limiter -> tail_sampling -> batch 的顺序
      processors: [memory_limiter, tail_sampling, batch]
      exporters: [otlp/storage]

注意：memory_limiter 必须放在第一位进行自我防御，防止突发流量直接打死进程。

补齐可观测的拼图：Trace 与 Log 的强关联

仅仅收集到 Trace 是不够的。在实战排查中，我们需要通过 TraceID 精准检索到那一刻的业务日志。

对于 Java 应用，OTel Java Agent（v1.30.0+）默认会自动将 trace_id 和 span_id 注入到 MDC（Mapped Diagnostic Context）中。但这里有两个常见的踩坑点：

1. 日志格式未配置占位符

如果在 logback-spring.xml 或 log4j2.xml 中没有修改 pattern，打印出来的日志依然是匿名的。必须在 Pattern 中显式提取 MDC 的值：

<!-- Logback 示例 -->
<appender name="CONSOLE" class="ch.qos.logback.core.ConsoleAppender">
    <encoder>
        <!-- %X{trace_id} 和 %X{span_id} 是 OTel 默认注入的 Key -->
        <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] %-5level [traceId=%X{trace_id} spanId=%X{span_id}] %logger{36} - %msg%n</pattern>
    </encoder>
</appender>

2. 异步线程池导致上下文丢失

这是业务开发最容易忽略的痛点。当业务代码使用 CompletableFuture 或自定义的 ThreadPoolExecutor 时，由于 MDC 底层依赖 ThreadLocal，不同线程间无法自然继承，导致日志中的 traceId 突然断代变为空白。

不要企图去魔改 ThreadPoolExecutor。标准的做法是利用 OTel API 提供的 Context 进行上下文传播包装：

import io.opentelemetry.context.Context;

// 错误写法：在新线程中丢失 Trace 上下文
executor.submit(() -> {
    log.info("Processing async task"); // 这里的日志 traceId 会是空的
});

// 正确写法：使用当前 Context 包装 Runnable
Runnable wrappedRunnable = Context.current().wrap(() -> {
    log.info("Processing async task"); // 这里能准确关联到父级 TraceId
});
executor.submit(wrappedRunnable);

对于 Spring 的 @Async 注解，可以通过实现 TaskDecorator 并在配置类中注入，实现自动的上下文转移，这里不再贴冗长的 Spring 模板代码。

常见问题 (FAQ)

Q1：使用 tail_sampling 后，在 Jaeger UI 上偶尔还是会看到一些断掉的“孤儿 Span”，为什么？ A：通常是因为服务优雅下线或 Collector 重启期间，上游数据流被打断。另一个常见原因是 decision_wait 设得太短。如果业务逻辑中有一个长达 15 秒的外部调用，而等待时间只有 10 秒，那么 10 秒后的 Span 就会变成孤儿。可以根据 99 线延迟适当拉长 decision_wait，但要做好内存预估。

Q2：如果不想部署复杂的 Collector 集群，只在客户端做头部采样（Head Sampling），有办法保留错误日志吗？ A：纯头部采样是确定性采样（在请求刚进入时就决定是否采样），此时并不知道后续是否会报错。一种妥协方案是：客户端不全量采样，但利用 OTel 的 Span.current().recordException(e) 和业务全局异常处理器联动。但这只能记录到报错那一刻的 Span，无法回溯完整的调用链，这是头部采样的硬伤。

Q3：底层存储用 ElasticSearch 还是 ClickHouse？ A：坚决推荐 ClickHouse。Trace 数据的特点是：海量写入、弱更新、固定维度的分析。ES 的倒排索引在应对数万 TPS 的 Span 写入时会产生极大的 CPU 和 IO 损耗，且磁盘占用通常是 CH 的 3-5 倍。借助开源的 jaeger-clickhouse 插件或者直接用 SigNoz 等原生基于 CH 的可观测产品，能大幅降低存储成本。

Q4：为什么加入了 memory_limiter，Collector 还是会被 OOMKilled？ A：检查你的 limit_mib 和容器的 Limit 配置。通常建议 limit_mib 设置为容器内存 Limit 的 70%-80%。因为 Golang 的 GC 是有延迟的，memory_limiter 触发 GC 和拦截请求的瞬间，系统底层的实际物理内存占用可能会有个短暂的尖峰。如果不留缓冲，就会被内核直接杀掉。

标签： 分布式追踪

突破 OpenTelemetry Collector 内存瓶颈：万级 QPS 下的尾部采样策略与 Trace-Log 关联机制深度解析