标签: OOM排查

  • 深入 Apache Pulsar 雪崩排查:大负载滥用引发的 Bookie OOM 与 Zookeeper Ledger 元数据风暴

    某次核心业务线的 Pulsar 集群突发雪崩,生产端 99 线写入延迟从 5ms 瞬间飙升到 5000ms+,紧接着出现大面积 ProducerFencedExceptionTimeoutException。先抛结论:这又是一起典型的“把 MQ 当网盘用”引发的血案。业务方将单条动辄 5MB 到 10MB 的非结构化 JSON 直接怼进 Pulsar,且未开启消息分块(Chunking)。大负载瞬间打爆了 Bookie 的 Direct Memory 导致节点 OOM 宕机;Bookie 下线后触发了 Broker 的 Ledger Ensemble 切换风暴,海量的新 Ledger 创建请求最终将底层的 ZooKeeper 彻底打瘫,集群随之全局假死。

    如果你也遇到了 Pulsar 写不进去,但 Broker 负载看着很低的情况,先去查底层的 BookKeeper 和 Zookeeper,Pulsar 存储计算分离的本质决定了:Broker 只是无状态的网关,真正的血肉之躯在下层。

    案发现场与指标崩盘

    排查初期,监控面板上的数据极其诡异:

    1. Broker 层:CPU 负载平稳,甚至有点闲置,但 pulsar_storage_write_latency_le 指标直接断崖式破表。

    2. Bookie 层:集群中某一台 Bookie 节点离奇掉线,剩余存活节点的 bookkeeper_journal_JOURNAL_SYNC_latency_99 从微秒级涨到了惊人的 3-5 秒。

    3. Zookeeper 层Outstanding Requests 飙升至数万,znode_count 在短短十分钟内激增了几十万。

    登入那台掉线的 Bookie 节点,dmesg -T 没有看到 OS OOM Killer 的痕迹,但翻看 Bookie 的 bookkeeper.log,满屏的猩红:

    ERROR org.apache.bookkeeper.bookie.Bookie - Error on writing ledger
    java.lang.OutOfMemoryError: Direct buffer memory
        at java.nio.Bits.reserveMemory(Bits.java:694)
        at java.nio.DirectByteBuffer.<init>(DirectByteBuffer.java:123)
        at io.netty.buffer.PoolArena$DirectArena.allocateDirect(PoolArena.java:754)
        at io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331)
    ...
    

    很明显,Bookie 进程因为 Netty 直接内存(Direct Memory)耗尽挂了。

    底层原理解析:大消息为何引发全局雪崩?

    在 Pulsar 的架构中,消息持久化由 BookKeeper 负责。为了追求高吞吐,Bookie 高度依赖 Netty 的池化直接内存来处理读写 IO,避免 JVM 堆内存的垃圾回收停顿(GC Pauses)。

    第一米多米诺骨牌:Direct Memory 爆炸 业务侧高并发写入 5MB+ 的大消息时,Bookie 的 Write Cache(由 dbStorage_writeCacheMaxSizeMb 控制,默认占用分配直接内存的 25%)被迅速填满。同时,由于单条 Payload 过大,Netty 在分配和回收 Direct Buffer 时出现碎片化和频繁的扩容操作,最终直接顶破了 MaxDirectMemorySize 的上限。

    第二米多米诺骨牌:Ledger 切换风暴 Pulsar 的写高可用依赖于 Bookie 的 Ensemble 机制。假设配置了 E=3, W=3, A=2(使用3个Bookie节点,写3份,2份Ack即成功)。当上述那台 Bookie OOM 宕机后,Broker 在等待 Ack 时发生超时,此时 Broker 会果断执行防御性动作:

    1. 将当前正在写入的 Ledger 标记为关闭(Fenced)。

    2. 从存活的 Bookie 列表中挑选新的节点,组成新的 Ensemble,并在 Zookeeper 中创建一个全新的 Ledger。

    灾难点在于:业务侧的重试风暴没有停止,大消息还在疯狂涌入。新 Ledger 刚创建,新的 Bookie 又被大消息塞得 IO 夯死或网络延迟,Broker 再次超时,再次 Fence Ledger,再次请求 ZK 创建新 Ledger。

    第三米多米诺骨牌:Zookeeper 瘫痪pulsar-admin topics stats-internal 输出中,平常一个 Topic 只有寥寥几个 Ledger,此时却看到了几千个碎片化的 Ledger ID:

    "ledgers": [
        {"ledgerId": 104523, "entries": 5, "size": 25600000},
        {"ledgerId": 104524, "entries": 2, "size": 10240000},
        {"ledgerId": 104525, "entries": 1, "size": 5120000}
    ]
    

    每一个 Ledger 的创建、状态变更,都需要强一致性地写入 Zookeeper。Zookeeper 本身就不擅长处理高频写,在这场疯狂的切换风暴中,ZK 的事务日志盘被彻底压爆,连接队列堆满。最终,Broker 抛出 MetadataStoreException: KeeperErrorCode = ConnectionLoss,全员罢工。

    与此同时,BookKeeper 内部的 AutoRecovery 检测到副本数不足,开始后台搬运数据,这让仅存的几台 Bookie 的磁盘 IOPS 和带宽更是雪上加霜,Journal 盘彻底失去响应(Sync 卡死)。

    现场恢复与架构调整

    要让这套系统活过来,重启是没用的,必须阻断恶性循环。

    1. 阻断生产洪峰:临时在 Broker 的 broker.conf 中动态下调 maxMessageSize(比如降回 1MB),硬性拦截业务侧的大负载写入,强制生产端抛错。

    2. 扩容与隔离:调大 Zookeeper 的 JVM 堆内存,增加 maxClientCnxns;重启 OOM 的 Bookie,并在启动参数 bkenv.sh 中将其 XX:MaxDirectMemorySize 翻倍。

    3. 禁用自动恢复:紧急执行 bookkeeper shell autorecovery -disable,防止数据重建任务抢占正常读写的 IO 资源,等凌晨低峰期再开启。

    长期避坑建议与加固方案:

    不要指望业务开发能完全遵守规范,运维和架构的底线就是通过配置和架构隔离来兜底。

    • 强制启用生产端 Chunking 或外置对象存储:对于大负载,如果非要用 MQ,生产端必须配置 ProducerBuilder.enableChunking(true),将大消息切片后发送,消费端再重组;或者将原始负载丢入 S3/MinIO,Pulsar 里只流转 Object URL。

    • 硬件层级冷热分离:BookKeeper 必须严格区分 Journal 盘和 Ledger 盘。Journal 盘用于顺序写 WAL,必须上 NVMe SSD;Ledger 盘用于批量落盘和随机读,可以使用大容量 SATA SSD 甚至 HDD。如果混用在一块盘上,fsync 延迟必然被大消息拉爆。

    • 精细化 Bookie 内存与缓存控制: 在 bookkeeper.conf 中,明确指定 DbLedgerStorage 的内存分配比例,防止 Direct Memory 失控: ini # 读缓存与写缓存的分配比例(默认 25/25,推荐读多时调高读,写多调高写) dbStorage_readAheadCacheMaxSizeMb=... dbStorage_writeCacheMaxSizeMb=... # 控制直接内存用于 Netty 接收缓存的比例 allocatorPoolingPolicy=PooledDirect

    排查清单:Pulsar 写入雪崩同类问题速查

    1. 查看 Broker 底层延迟指标:重点监控 bookkeeper_journal_JOURNAL_SYNC_latency_99。如果该指标突破 50ms 甚至达到秒级,说明 Bookie 磁盘 IO 已成瓶颈,检查是否触发了 AutoRecovery 或存在大消息滥用。

    2. 排查 Zookeeper 压力:如果 Broker 日志频繁出现 ConnectionLossSessionExpired,检查 ZK 的 Outstanding Requests 指标。大概率是 Broker 频繁更换 Ledger 导致的元数据风暴。

    3. 检查 Topic 碎片化:使用 pulsar-admin topics stats-internal 查看 ledgers 列表。如果单个 Topic 存在大量仅包含几个 Entry 的碎片化 Ledger,说明 Bookie 状态极不稳定,触发了频繁的 Ensemble 容错切换。

    4. Bookie OOM 溯源:检查 dmesg 排除系统级 OOM 后,直接看 Bookie 进程日志搜索 OutOfMemoryError。若为堆外内存溢出,需结合 bkenv.sh 中的 MaxDirectMemorySize 以及业务消息 Size 综合评估。

  • 深入 K8S Operator 内存 OOM 排查:缺失 FieldIndexer 引发的 Informer Cache 爆炸与 Finalizer 死锁实战

    controller-runtime (基于 v0.15.0) 的 Operator 开发中,最隐蔽的 OOM 与性能杀手往往源于开发者在 Reconcile 循环中滥用全局 client.List 进行内存级过滤,而非向 Manager 注册 FieldIndexer。这种反模式会强制 Informer 监听并缓存集群全量资源,直接撑爆本地 ThreadSafeStore。当 Operator 因 OOM 陷入 CrashLoopBackOff 时,又会产生连锁反应:拦截了删除事件的 Finalizer 无法执行清理逻辑,导致海量 CR(Custom Resource)和关联 Namespace 陷入永久 Terminating 死锁。解决此问题的核心在于:利用 FieldIndexer 下推查询条件到索引层,并严格遵循安全的 Finalizer 状态机编排。

    故障现场:Operator 频繁 OOM 与僵尸 CR 风暴

    排查某次生产环境问题时,监控系统发出严重告警:

    1. Operator Pod OOMKilled:内存使用量频繁突破 2Gi 的 Limit 阈值。

    2. Reconcile 延迟剧增:P99 Reconcile 时延从毫秒级劣化至 15 秒以上。

    3. 僵尸对象堆积:大量自定义资源 DataJob 及其所在的 Namespace 处于 Terminating 状态无法回收,集群 API Server 的 Watch 流连接数激增。

    拉取 Operator 的 Go pprof heap dump 进行现场剖析:

    go tool pprof -top http://operator-svc:8081/debug/pprof/heap
    

    输出结果极为刺眼,超过 85% 的内存消耗集中在 k8s.io/client-go/tools/cache.(*threadSafeMap).Updatek8s.io/apimachinery/pkg/apis/meta/v1/unstructured。这说明本地 Informer Cache 中囤积了极其庞大的对象数据。

    审查业务侧代码,在 DataJob 的 Reconcile 主逻辑中发现了这坨致命的“全表扫描”代码:

    // 致命的反模式代码
    podList := &corev1.PodList{}
    // 直接 List 全局 Pod,未指定 Namespace 或 Label/Field Selector
    if err := r.Client.List(ctx, podList); err != nil {
        return ctrl.Result{}, err
    }
    
    var ownedPods []corev1.Pod
    for _, pod := range podList.Items {
        // 在内存中暴力遍历过滤 owner
        for _, owner := range pod.OwnerReferences {
            if owner.Name == dataJob.Name {
                ownedPods = append(ownedPods, pod)
            }
        }
    }
    

    为什么滥用 client.List 会导致 Informer Cache 撑爆?

    在回答这个问题之前,必须理解 controller-runtime 的读写分离哲学与 Informer 底层运行机制。

    默认情况下,mgr.GetClient() 注入给 Reconciler 的 Client 是一个 Split Client(读写分离客户端)。

    • 写操作(Create/Update/Delete/Patch):直接透传给 APIServer。

    • 读操作(Get/List):默认全部被拦截并路由到本地 Informer Cache(CacheReader)。

    当你调用 r.Client.List(ctx, podList) 时,底层发生了什么?

    1. controller-runtime 发现你要 List Pod 资源。

    2. 如果此前没有针对 Pod 初始化过 Informer,Manager 会动态启动一个全量 Pod Informer。

    3. 该 Informer 通过 Reflector 向 APIServer 发起 ListAndWatch 请求。

    4. APIServer 将集群中所有的 Pod(假设有 50,000 个)推送到本地。

    5. DeltaFIFO 接收数据,经过处理后全量灌入 ThreadSafeStore(基于 Go map 实现的内存缓存)。

    灾难的根源:虽然缓存避免了频繁请求 APIServer,但 Pod 是一个极其臃肿的结构体(包含大段的 Annotations、Env、Volume 挂载信息)。50,000 个 Pod 在 Go 内存中反序列化后,轻易就能吃掉 1GB~2GB 内存。为了过滤区区几个属于特定 CR 的 Pod,把全集群的 Pod 搬进内存,典型的“为了吃一小口肉,把整个养猪场买下来”。

    实战解法:注入 FieldIndexer 下推索引

    要消除这种全表扫描引发的 OOM,必须利用 FieldIndexer。它的原理是在 Informer 同步数据到 ThreadSafeStore 时,根据你定义的提取函数,提前构建好倒排索引。

    1. 注册索引 (SetupWithManager)

    在 Operator 启动时,将 metadata.ownerReferences 注册为可检索的字段索引:

    const jobOwnerKey = ".metadata.controller"
    
    func (r *DataJobReconciler) SetupWithManager(mgr ctrl.Manager) error {
        // 建立基于 OwnerReference 的倒排索引
        if err := mgr.GetFieldIndexer().IndexField(context.Background(), &corev1.Pod{}, jobOwnerKey, func(rawObj client.Object) []string {
            pod := rawObj.(*corev1.Pod)
            owner := metav1.GetControllerOf(pod)
            if owner == nil {
                return nil
            }
            // 确保 Owner 是当前 GVK
            if owner.APIVersion == apiGVStr && owner.Kind == "DataJob" {
                return []string{owner.Name}
            }
            return nil
        }); err != nil {
            return err
        }
    
        return ctrl.NewControllerManagedBy(mgr).
            For(&batchv1.DataJob{}).
            Owns(&corev1.Pod{}).
            Complete(r)
    }
    

    2. 重构 Reconcile 逻辑

    将内存遍历替换为按字段匹配(client.MatchingFields):

    podList := &corev1.PodList{}
    // 此时只会从 Cache 的索引桶中精准捞取对应 name 的对象
    err := r.List(ctx, podList, client.InNamespace(req.Namespace), client.MatchingFields{jobOwnerKey: dataJob.Name})
    if err != nil {
        return ctrl.Result{}, err
    }
    

    通过这种方式,Informer 依然会在后台维护缓存,但由于限定了 Namespace(通过 RBAC 和 Manager 启动参数 Cache 限制监听范围),以及规避了无效的大切片拷贝操作,Operator 的内存消耗被严格压制在百兆级别。

    打破 Finalizer 级联死锁

    回到故障现场的第三个问题:为什么大量资源卡在 Terminating? 原因在于 Operator 由于上述 OOM 问题不断 Crash,导致资源删除事件无法被正常消费。而这些 CR 注入了 Finalizer。

    在 K8S 中,只要对象的 metadata.finalizers 列表不为空,APIServer 就只会将对象的 DeletionTimestamp 赋值,而不会真正从 Etcd 中物理删除该记录。若 Operator 宕机,Finalizer 迟迟不被移除,资源就会僵死。

    防御性 Finalizer 编排范式

    处理 Finalizer 必须极其谨慎,严禁在网络抖动或外部 API 调用失败时强行移除 Finalizer,否则会导致依赖的云端或集群外部资源泄露。标准的安全状态机如下:

    const dataJobFinalizer = "batch.example.com/finalizer"
    
    func (r *DataJobReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
        dataJob := &batchv1.DataJob{}
        if err := r.Get(ctx, req.NamespacedName, dataJob); err != nil {
            return ctrl.Result{}, client.IgnoreNotFound(err)
        }
    
        // 检查资源是否正在被删除
        if dataJob.ObjectMeta.DeletionTimestamp.IsZero() {
            // 未被删除,检查是否需要注入 Finalizer
            if !controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
                controllerutil.AddFinalizer(dataJob, dataJobFinalizer)
                if err := r.Update(ctx, dataJob); err != nil {
                    return ctrl.Result{}, err
                }
            }
        } else {
            // 资源处于 Terminating 状态,执行清理逻辑
            if controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
                // 1. 执行自定义清理逻辑 (必须幂等,并处理超时/失败)
                if err := r.cleanUpExternalResources(dataJob); err != nil {
                    // 清理失败,返回 err 触发重试,绝对不能移除 Finalizer
                    return ctrl.Result{}, err
                }
    
                // 2. 清理成功,安全移除 Finalizer
                controllerutil.RemoveFinalizer(dataJob, dataJobFinalizer)
                if err := r.Update(ctx, dataJob); err != nil {
                    return ctrl.Result{}, err
                }
            }
            // 允许终止 Reconcile
            return ctrl.Result{}, nil
        }
    
        // 正常的业务 Reconcile 逻辑...
        return ctrl.Result{}, nil
    }
    

    避坑指南:在 Update Finalizer 状态时,极易遭遇 Conflict (HTTP 409) 错误。这是因为在处理清理逻辑的几秒钟内,对象的 ResourceVersion 可能已经被其他 Controller 改变。controller-runtime 会自动在下一个 Reconcile 循环重试,因此你的 cleanUpExternalResources 必须是严格幂等的

    常见问题 (Q&A)

    Q1:什么时候应该绕过 Informer Cache 直接读取 APIServer? 极少数情况。当你需要强一致性读取(例如处理极度敏感的锁机制或鉴权),不能容忍毫秒级的 Cache 同步延迟时。在 controller-runtime 中,可以通过注入 client.Reader 并使用 client.NewAPIReader(mgr.GetClient()) 获取直连 APIServer 的对象。但严禁在频繁的 Reconcile 循环中对全量列表使用直读,否则立刻引发 APIServer QPS 告警。

    Q2:如果我只需要获取资源的 metadata,不想缓存庞大的 spec/status 怎么办? 在较新的 controller-runtime 中(配合 Kubernetes 1.27+),你可以启用 MetadataOnly Client。它基于 APIServer 的 PartialObjectMetadata API,Informer 在本地仅缓存对象的 ObjectMeta 结构体,这能将数百 MB 的 Cache OOM 风险直接降维到几 MB。

    Q3:为什么我加上了 FieldIndexer,Operator 启动时还是对 APIServer 造成了 Watch 风暴? 检查你启动 Manager 时的 Options.Cache 配置。默认行为是全局监控(Watch All Namespaces)。如果你是一个 Namespace-scoped 的 Operator,务必在 Cache 配置中指定 DefaultNamespaces 列表。否则,每个 GVK 的 Informer 启动时依然会触发集群全量 Resync。

  • 突破 OOM 死亡循环:Prometheus 高基数指标引发的 TSDB 内存雪崩与底层结构解析实战

    结论先行:Prometheus 频繁 OOM 且 WAL 截断失败,99% 的根因是高基数(High Cardinality)标签打穿了 Head Block 的倒排索引。底层 Gorilla 压缩算法只能极大地优化时序“值”的存储(16字节压缩至约1.37字节),但救不了无限膨胀的 Label 组合。解决方案:通过 promtool tsdb analyze 定位基数元凶,用 metric_relabel_configs 在抓取阶段实行防御性清洗,并合理配置 TSDB 的 Block 压缩与落盘周期。

    某次排查过程中,我们线上一套监控几十个 K8S 集群的核心 Prometheus(v2.45.0)节点陷入了 CrashLoopBackOff 的死亡循环。告警静默,监控大屏一片空白。

    查看系统内核日志,死因极其明确——被 OOM Killer 制裁:

    $ dmesg -T | grep -i oom
    [xxx] prometheus invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
    [xxx] Memory cgroup out of memory: Killed process 12345 (prometheus) total-vm:85493200kB, anon-rss:67108864kB
    

    物理机分配了 64GB 内存给这个容器,居然在几分钟内被吃干抹净。这绝不是正常的指标写入量增长,而是典型的“高基数雪崩”。

    寻找雪崩元凶:拨开 WAL 与 Head Block 的迷雾

    Prometheus 的 TSDB 设计基于内存(Head Block)与磁盘(Persistent Block)的组合。最新采集的 2-3 小时数据全部驻留在内存中,并依靠 WAL(Write-Ahead Log)保证不丢数据。每次 Prometheus OOM 重启后,第一件事就是 Replaying WAL。如果导致 OOM 的高基数数据还在 WAL 里,重启过程必将再次吃满内存,形成死循环。

    为了强行中断这个循环,我们先将该节点的内存限制临时放大到 128GB 让其启动,随后立即使用官方神器 promtool 对本地数据目录进行离线解剖:

    $ promtool tsdb analyze /prometheus/data
    ...
    # Top 10 label names with high memory usage:
    1: trace_id
    2: client_ip
    3: pod_ip
    
    # Top 10 series count by metric names:
    1: 4501230  http_request_duration_seconds_bucket
    2: 2100450  http_requests_total
    ...
    

    破案了。某业务研发在 http_requests_total 和耗时直方图里,顺手加上了 trace_idclient_ip 作为 Label。

    为什么仅仅是多加了一个 Label,就会耗尽上百 GB 的内存?

    很多开发对时序数据库有误解,认为“Prometheus 压缩率很高,多加个字段无所谓”。这就必须深入 TSDB 的底层数据结构来解释。

    在 Prometheus 中,一条时间线(Series)由 Metric Name 和一组 Label 键值对唯一确定http_requests_total{method="GET", status="200", client_ip="192.168.1.10", trace_id="abc123xxx"}

    TSDB 处理数据分为两大核心路径:数据块(Chunks)倒排索引(Inverted Index)

    1. Chunks 的极致压缩(Gorilla 算法) 对于属于同一条时间线的连续样本数据 (Timestamp, Value),Prometheus 采用了类似 Facebook Gorilla 论文中的 XOR 增量压缩算法。因为时间戳通常是规律递增的(如 15s 一次),Value 往往变化极小。通过计算差值的差值(Delta-of-Delta),一对原本需要 16 Bytes(8 Byte int64 时间戳 + 8 Byte float64 值)的样本,能被压缩到平均 1.37 Bytes。这就是大家常说的“高压缩率”。

    2. 倒排索引的内存黑洞 Gorilla 压缩对 Label 完全无效。为了能让 PromQL 飞速查询,Prometheus 必须为每一个 Label 的 Name 和 Value 建立倒排索引映射: Label (client_ip="192.168.1.10") -> [Series ID 1, Series ID 205...] 当引入 trace_id 这种几乎每次请求都不同的 Label 时,Series 的数量等于所有 Label 基数的笛卡尔积。 百万级别的 trace_id 瞬间生成了数百万条独立的 Series。每条全新 Series 的诞生,都会在 Head Block 中分配新的字符串内存(Symbols table)、新的倒排索引指针(Postings list),以及独立的数据 Chunk。内存消耗呈现指数级爆炸,且完全无法被压缩。

    当这些海量的内存结构积压在 Head Block(默认驻留时间最多达 3 小时),内存自然会瞬间被打穿。

    落地实战:防御性清洗与架构调优

    对于这种毒瘤级的指标,我们绝不妥协,必须在网关侧/采集侧直接干掉,实施“防御性运维”。

    1. 采集端防御配置(metric_relabel_configs) 在 Prometheus 的 scrape_configs 中,利用 metric_relabel_configs 在指标进入 TSDB 引擎前将其截杀。注意,不要用 relabel_configs(作用于 target 发现阶段),必须用 metric_relabel_configs

    scrape_configs:
      - job_name: 'business-api'
        ...
        metric_relabel_configs:
          # 方案一:直接丢弃整个包含了违规 Label 的指标序列(下手最狠)
          - source_labels: [trace_id]
            regex: '.+'
            action: drop
    
          # 方案二:保留指标,但抹除高基数 Label(推荐,保证监控不丢失总并发量)
          - regex: '(trace_id|client_ip)'
            action: labeldrop
    

    加载配置 (curl -X POST http://localhost:9090/-/reload) 后,新的数据洪流被清洗干净。

    2. TSDB 块生命周期(Compaction)调优 为了让 Prometheus 尽快清理掉历史遗留的庞大 Head Block,我们需要理解 TSDB 的落盘(Compaction)机制。 Head Block 中的数据达到特定条件会切分成持久化的 Block 目录(包含 meta.json, index, chunks/, tombstones)。

    如果服务器内存吃紧,我们可以适当干预落盘周期(启动参数配置):

    # 默认 min-block-duration 为 2h,决定了 Head 块多久切片一次落盘。
    # 强制保持一致,避免块过大难以合并
    --storage.tsdb.min-block-duration=2h
    --storage.tsdb.max-block-duration=24h
    

    持久化到磁盘后的 Block 会被通过 mmap 的方式映射到虚拟内存空间(VIRT),此时只要不进行全量范围的 PromQL 查询,这部分数据对物理内存(RES)的占用将大幅度降低,由 Linux 内核的 PageCache 全权接管。

    3. 清理已存在的毒瘤数据(Tombstones 机制) 对于历史的脏数据,可以使用 Admin API 软删除:

    curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={trace_id=~".+"}'
    

    执行后,数据不会立刻从磁盘消失,而是写入到 Block 目录下的 tombstones 文件中。后续的 Compaction 过程会读取该文件并真正剔除无用数据。如果需要强制立即清理磁盘,可调用:

    curl -X POST http://localhost:9090/api/v1/admin/tsdb/clean_tombstones
    

    常见问题 (FAQ)

    Q1:为什么通过 metric_relabel_configs 删除了高基数 Label,Prometheus 的物理内存(RES)并没有立刻下降? A:这是符合预期的。由于 Prometheus TSDB Head Block 的机制,数据通常要在内存中攒满 2 小时(加上最长允许的 1 小时 overlap)才会执行落盘并释放内存。即使新抓取的数据不再含有高基数标签,旧的庞大倒排索引依然存活在内存里。你需要耐心等待下一次 Head 切片,或者干脆重启进程,配合之前放宽的内存上限让 WAL 重放完成后,内存自然回落。

    Q2:Prometheus 发生 OOM 重启后,启动特别慢,日志一直卡在 Replaying WAL 是什么情况? A:Prometheus 只有正常退出时,才会将 Head Block 里的内容做 Checkpoint 或者全量 Flush 落盘。OOM 属于非正常崩溃,内存数据丢失。重启后,它必须逐行读取 data/wal/ 目录下的日志以在内存中重建倒排索引和 Chunks。如果 WAL 高达几十个 GB,这个过程将极其漫长(且高度依赖磁盘 IOPS)。建议将 TSDB 部署在企业级 NVMe SSD 上,这是监控系统的底线。

    Q3:我可以通过降低抓取频率(将 scrape_interval 从 15s 调整为 60s)来缓解高基数导致的 OOM 吗? A:不能,这是经典误区。scrape_interval 影响的是同一条 Series 每分钟追加的样本点数量。这部分数据被 Gorilla XOR 算法高效压缩,占用极小。导致 OOM 的是 Series 的总数(基数规模)膨胀,进而撑爆了不可压缩的倒排索引表。无论是 15s 抓取一次还是 1 分钟抓取一次,只要这几百万个带唯一 trace_id 的 Label 依然存在,生成的索引内存消耗是一模一样的。