标签： OOM排查

深入 Apache Pulsar 雪崩排查：大负载滥用引发的 Bookie OOM 与 Zookeeper Ledger 元数据风暴
某次核心业务线的 Pulsar 集群突发雪崩，生产端 99 线写入延迟从 5ms 瞬间飙升到 5000ms+，紧接着出现大面积 ProducerFencedException 和 TimeoutException。先抛结论：这又是一起典型的“把 MQ 当网盘用”引发的血案。业务方将单条动辄 5MB 到 10MB 的非结构化 JSON 直接怼进 Pulsar，且未开启消息分块（Chunking）。大负载瞬间打爆了 Bookie 的 Direct Memory 导致节点 OOM 宕机；Bookie 下线后触发了 Broker 的 Ledger Ensemble 切换风暴，海量的新 Ledger 创建请求最终将底层的 ZooKeeper 彻底打瘫，集群随之全局假死。

如果你也遇到了 Pulsar 写不进去，但 Broker 负载看着很低的情况，先去查底层的 BookKeeper 和 Zookeeper，Pulsar 存储计算分离的本质决定了：Broker 只是无状态的网关，真正的血肉之躯在下层。

案发现场与指标崩盘

排查初期，监控面板上的数据极其诡异：
1. Broker 层：CPU 负载平稳，甚至有点闲置，但 pulsar_storage_write_latency_le 指标直接断崖式破表。
2. Bookie 层：集群中某一台 Bookie 节点离奇掉线，剩余存活节点的 bookkeeper_journal_JOURNAL_SYNC_latency_99 从微秒级涨到了惊人的 3-5 秒。
3. Zookeeper 层：Outstanding Requests 飙升至数万，znode_count 在短短十分钟内激增了几十万。
登入那台掉线的 Bookie 节点，dmesg -T 没有看到 OS OOM Killer 的痕迹，但翻看 Bookie 的 bookkeeper.log，满屏的猩红：
```
ERROR org.apache.bookkeeper.bookie.Bookie - Error on writing ledger
java.lang.OutOfMemoryError: Direct buffer memory
    at java.nio.Bits.reserveMemory(Bits.java:694)
    at java.nio.DirectByteBuffer.<init>(DirectByteBuffer.java:123)
    at io.netty.buffer.PoolArena$DirectArena.allocateDirect(PoolArena.java:754)
    at io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331)
...
```
很明显，Bookie 进程因为 Netty 直接内存（Direct Memory）耗尽挂了。

底层原理解析：大消息为何引发全局雪崩？

在 Pulsar 的架构中，消息持久化由 BookKeeper 负责。为了追求高吞吐，Bookie 高度依赖 Netty 的池化直接内存来处理读写 IO，避免 JVM 堆内存的垃圾回收停顿（GC Pauses）。

第一米多米诺骨牌：Direct Memory 爆炸 业务侧高并发写入 5MB+ 的大消息时，Bookie 的 Write Cache（由 dbStorage_writeCacheMaxSizeMb 控制，默认占用分配直接内存的 25%）被迅速填满。同时，由于单条 Payload 过大，Netty 在分配和回收 Direct Buffer 时出现碎片化和频繁的扩容操作，最终直接顶破了 MaxDirectMemorySize 的上限。

第二米多米诺骨牌：Ledger 切换风暴 Pulsar 的写高可用依赖于 Bookie 的 Ensemble 机制。假设配置了 E=3, W=3, A=2（使用3个Bookie节点，写3份，2份Ack即成功）。当上述那台 Bookie OOM 宕机后，Broker 在等待 Ack 时发生超时，此时 Broker 会果断执行防御性动作：
1. 将当前正在写入的 Ledger 标记为关闭（Fenced）。
2. 从存活的 Bookie 列表中挑选新的节点，组成新的 Ensemble，并在 Zookeeper 中创建一个全新的 Ledger。
灾难点在于：业务侧的重试风暴没有停止，大消息还在疯狂涌入。新 Ledger 刚创建，新的 Bookie 又被大消息塞得 IO 夯死或网络延迟，Broker 再次超时，再次 Fence Ledger，再次请求 ZK 创建新 Ledger。

第三米多米诺骨牌：Zookeeper 瘫痪 在 pulsar-admin topics stats-internal 输出中，平常一个 Topic 只有寥寥几个 Ledger，此时却看到了几千个碎片化的 Ledger ID：
```
"ledgers": [
    {"ledgerId": 104523, "entries": 5, "size": 25600000},
    {"ledgerId": 104524, "entries": 2, "size": 10240000},
    {"ledgerId": 104525, "entries": 1, "size": 5120000}
]
```
每一个 Ledger 的创建、状态变更，都需要强一致性地写入 Zookeeper。Zookeeper 本身就不擅长处理高频写，在这场疯狂的切换风暴中，ZK 的事务日志盘被彻底压爆，连接队列堆满。最终，Broker 抛出 MetadataStoreException: KeeperErrorCode = ConnectionLoss，全员罢工。

与此同时，BookKeeper 内部的 AutoRecovery 检测到副本数不足，开始后台搬运数据，这让仅存的几台 Bookie 的磁盘 IOPS 和带宽更是雪上加霜，Journal 盘彻底失去响应（Sync 卡死）。

现场恢复与架构调整

要让这套系统活过来，重启是没用的，必须阻断恶性循环。
1. 阻断生产洪峰：临时在 Broker 的 broker.conf 中动态下调 maxMessageSize（比如降回 1MB），硬性拦截业务侧的大负载写入，强制生产端抛错。
2. 扩容与隔离：调大 Zookeeper 的 JVM 堆内存，增加 maxClientCnxns；重启 OOM 的 Bookie，并在启动参数 bkenv.sh 中将其 XX:MaxDirectMemorySize 翻倍。
3. 禁用自动恢复：紧急执行 bookkeeper shell autorecovery -disable，防止数据重建任务抢占正常读写的 IO 资源，等凌晨低峰期再开启。
长期避坑建议与加固方案：

不要指望业务开发能完全遵守规范，运维和架构的底线就是通过配置和架构隔离来兜底。
- 强制启用生产端 Chunking 或外置对象存储：对于大负载，如果非要用 MQ，生产端必须配置 ProducerBuilder.enableChunking(true)，将大消息切片后发送，消费端再重组；或者将原始负载丢入 S3/MinIO，Pulsar 里只流转 Object URL。
- 硬件层级冷热分离：BookKeeper 必须严格区分 Journal 盘和 Ledger 盘。Journal 盘用于顺序写 WAL，必须上 NVMe SSD；Ledger 盘用于批量落盘和随机读，可以使用大容量 SATA SSD 甚至 HDD。如果混用在一块盘上，fsync 延迟必然被大消息拉爆。
- 精细化 Bookie 内存与缓存控制：在 bookkeeper.conf 中，明确指定 DbLedgerStorage 的内存分配比例，防止 Direct Memory 失控： ini # 读缓存与写缓存的分配比例（默认 25/25，推荐读多时调高读，写多调高写） dbStorage_readAheadCacheMaxSizeMb=... dbStorage_writeCacheMaxSizeMb=... # 控制直接内存用于 Netty 接收缓存的比例 allocatorPoolingPolicy=PooledDirect
排查清单：Pulsar 写入雪崩同类问题速查
1. 查看 Broker 底层延迟指标：重点监控 bookkeeper_journal_JOURNAL_SYNC_latency_99。如果该指标突破 50ms 甚至达到秒级，说明 Bookie 磁盘 IO 已成瓶颈，检查是否触发了 AutoRecovery 或存在大消息滥用。
2. 排查 Zookeeper 压力：如果 Broker 日志频繁出现 ConnectionLoss 或 SessionExpired，检查 ZK 的 Outstanding Requests 指标。大概率是 Broker 频繁更换 Ledger 导致的元数据风暴。
3. 检查 Topic 碎片化：使用 pulsar-admin topics stats-internal 查看 ledgers 列表。如果单个 Topic 存在大量仅包含几个 Entry 的碎片化 Ledger，说明 Bookie 状态极不稳定，触发了频繁的 Ensemble 容错切换。
4. Bookie OOM 溯源：检查 dmesg 排除系统级 OOM 后，直接看 Bookie 进程日志搜索 OutOfMemoryError。若为堆外内存溢出，需结合 bkenv.sh 中的 MaxDirectMemorySize 以及业务消息 Size 综合评估。
2026年6月6日
深入 K8S Operator 内存 OOM 排查：缺失 FieldIndexer 引发的 Informer Cache 爆炸与 Finalizer 死锁实战
在 controller-runtime (基于 v0.15.0) 的 Operator 开发中，最隐蔽的 OOM 与性能杀手往往源于开发者在 Reconcile 循环中滥用全局 client.List 进行内存级过滤，而非向 Manager 注册 FieldIndexer。这种反模式会强制 Informer 监听并缓存集群全量资源，直接撑爆本地 ThreadSafeStore。当 Operator 因 OOM 陷入 CrashLoopBackOff 时，又会产生连锁反应：拦截了删除事件的 Finalizer 无法执行清理逻辑，导致海量 CR（Custom Resource）和关联 Namespace 陷入永久 Terminating 死锁。解决此问题的核心在于：利用 FieldIndexer 下推查询条件到索引层，并严格遵循安全的 Finalizer 状态机编排。

故障现场：Operator 频繁 OOM 与僵尸 CR 风暴

排查某次生产环境问题时，监控系统发出严重告警：
1. Operator Pod OOMKilled：内存使用量频繁突破 2Gi 的 Limit 阈值。
2. Reconcile 延迟剧增：P99 Reconcile 时延从毫秒级劣化至 15 秒以上。
3. 僵尸对象堆积：大量自定义资源 DataJob 及其所在的 Namespace 处于 Terminating 状态无法回收，集群 API Server 的 Watch 流连接数激增。
拉取 Operator 的 Go pprof heap dump 进行现场剖析：
```
go tool pprof -top http://operator-svc:8081/debug/pprof/heap
```
输出结果极为刺眼，超过 85% 的内存消耗集中在 k8s.io/client-go/tools/cache.(*threadSafeMap).Update 和 k8s.io/apimachinery/pkg/apis/meta/v1/unstructured。这说明本地 Informer Cache 中囤积了极其庞大的对象数据。

审查业务侧代码，在 DataJob 的 Reconcile 主逻辑中发现了这坨致命的“全表扫描”代码：
```
// 致命的反模式代码
podList := &corev1.PodList{}
// 直接 List 全局 Pod，未指定 Namespace 或 Label/Field Selector
if err := r.Client.List(ctx, podList); err != nil {
    return ctrl.Result{}, err
}

var ownedPods []corev1.Pod
for _, pod := range podList.Items {
    // 在内存中暴力遍历过滤 owner
    for _, owner := range pod.OwnerReferences {
        if owner.Name == dataJob.Name {
            ownedPods = append(ownedPods, pod)
        }
    }
}
```
为什么滥用 client.List 会导致 Informer Cache 撑爆？

在回答这个问题之前，必须理解 controller-runtime 的读写分离哲学与 Informer 底层运行机制。

默认情况下，mgr.GetClient() 注入给 Reconciler 的 Client 是一个 Split Client（读写分离客户端）。
- 写操作（Create/Update/Delete/Patch）：直接透传给 APIServer。
- 读操作（Get/List）：默认全部被拦截并路由到本地 Informer Cache（CacheReader）。
当你调用 r.Client.List(ctx, podList) 时，底层发生了什么？
1. controller-runtime 发现你要 List Pod 资源。
2. 如果此前没有针对 Pod 初始化过 Informer，Manager 会动态启动一个全量 Pod Informer。
3. 该 Informer 通过 Reflector 向 APIServer 发起 ListAndWatch 请求。
4. APIServer 将集群中所有的 Pod（假设有 50,000 个）推送到本地。
5. DeltaFIFO 接收数据，经过处理后全量灌入 ThreadSafeStore（基于 Go map 实现的内存缓存）。
灾难的根源：虽然缓存避免了频繁请求 APIServer，但 Pod 是一个极其臃肿的结构体（包含大段的 Annotations、Env、Volume 挂载信息）。50,000 个 Pod 在 Go 内存中反序列化后，轻易就能吃掉 1GB~2GB 内存。为了过滤区区几个属于特定 CR 的 Pod，把全集群的 Pod 搬进内存，典型的“为了吃一小口肉，把整个养猪场买下来”。

实战解法：注入 FieldIndexer 下推索引

要消除这种全表扫描引发的 OOM，必须利用 FieldIndexer。它的原理是在 Informer 同步数据到 ThreadSafeStore 时，根据你定义的提取函数，提前构建好倒排索引。

1. 注册索引 (SetupWithManager)

在 Operator 启动时，将 metadata.ownerReferences 注册为可检索的字段索引：
```
const jobOwnerKey = ".metadata.controller"

func (r *DataJobReconciler) SetupWithManager(mgr ctrl.Manager) error {
    // 建立基于 OwnerReference 的倒排索引
    if err := mgr.GetFieldIndexer().IndexField(context.Background(), &corev1.Pod{}, jobOwnerKey, func(rawObj client.Object) []string {
        pod := rawObj.(*corev1.Pod)
        owner := metav1.GetControllerOf(pod)
        if owner == nil {
            return nil
        }
        // 确保 Owner 是当前 GVK
        if owner.APIVersion == apiGVStr && owner.Kind == "DataJob" {
            return []string{owner.Name}
        }
        return nil
    }); err != nil {
        return err
    }

    return ctrl.NewControllerManagedBy(mgr).
        For(&batchv1.DataJob{}).
        Owns(&corev1.Pod{}).
        Complete(r)
}
```
2. 重构 Reconcile 逻辑

将内存遍历替换为按字段匹配（client.MatchingFields）：
```
podList := &corev1.PodList{}
// 此时只会从 Cache 的索引桶中精准捞取对应 name 的对象
err := r.List(ctx, podList, client.InNamespace(req.Namespace), client.MatchingFields{jobOwnerKey: dataJob.Name})
if err != nil {
    return ctrl.Result{}, err
}
```
通过这种方式，Informer 依然会在后台维护缓存，但由于限定了 Namespace（通过 RBAC 和 Manager 启动参数 Cache 限制监听范围），以及规避了无效的大切片拷贝操作，Operator 的内存消耗被严格压制在百兆级别。

打破 Finalizer 级联死锁

回到故障现场的第三个问题：为什么大量资源卡在 Terminating？原因在于 Operator 由于上述 OOM 问题不断 Crash，导致资源删除事件无法被正常消费。而这些 CR 注入了 Finalizer。

在 K8S 中，只要对象的 metadata.finalizers 列表不为空，APIServer 就只会将对象的 DeletionTimestamp 赋值，而不会真正从 Etcd 中物理删除该记录。若 Operator 宕机，Finalizer 迟迟不被移除，资源就会僵死。

防御性 Finalizer 编排范式

处理 Finalizer 必须极其谨慎，严禁在网络抖动或外部 API 调用失败时强行移除 Finalizer，否则会导致依赖的云端或集群外部资源泄露。标准的安全状态机如下：
```
const dataJobFinalizer = "batch.example.com/finalizer"

func (r *DataJobReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
    dataJob := &batchv1.DataJob{}
    if err := r.Get(ctx, req.NamespacedName, dataJob); err != nil {
        return ctrl.Result{}, client.IgnoreNotFound(err)
    }

    // 检查资源是否正在被删除
    if dataJob.ObjectMeta.DeletionTimestamp.IsZero() {
        // 未被删除，检查是否需要注入 Finalizer
        if !controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
            controllerutil.AddFinalizer(dataJob, dataJobFinalizer)
            if err := r.Update(ctx, dataJob); err != nil {
                return ctrl.Result{}, err
            }
        }
    } else {
        // 资源处于 Terminating 状态，执行清理逻辑
        if controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
            // 1. 执行自定义清理逻辑 (必须幂等，并处理超时/失败)
            if err := r.cleanUpExternalResources(dataJob); err != nil {
                // 清理失败，返回 err 触发重试，绝对不能移除 Finalizer
                return ctrl.Result{}, err
            }

            // 2. 清理成功，安全移除 Finalizer
            controllerutil.RemoveFinalizer(dataJob, dataJobFinalizer)
            if err := r.Update(ctx, dataJob); err != nil {
                return ctrl.Result{}, err
            }
        }
        // 允许终止 Reconcile
        return ctrl.Result{}, nil
    }

    // 正常的业务 Reconcile 逻辑...
    return ctrl.Result{}, nil
}
```
避坑指南：在 Update Finalizer 状态时，极易遭遇 Conflict (HTTP 409) 错误。这是因为在处理清理逻辑的几秒钟内，对象的 ResourceVersion 可能已经被其他 Controller 改变。controller-runtime 会自动在下一个 Reconcile 循环重试，因此你的 cleanUpExternalResources 必须是严格幂等的。

常见问题 (Q&A)

Q1：什么时候应该绕过 Informer Cache 直接读取 APIServer？ 极少数情况。当你需要强一致性读取（例如处理极度敏感的锁机制或鉴权），不能容忍毫秒级的 Cache 同步延迟时。在 controller-runtime 中，可以通过注入 client.Reader 并使用 client.NewAPIReader(mgr.GetClient()) 获取直连 APIServer 的对象。但严禁在频繁的 Reconcile 循环中对全量列表使用直读，否则立刻引发 APIServer QPS 告警。

Q2：如果我只需要获取资源的 metadata，不想缓存庞大的 spec/status 怎么办？ 在较新的 controller-runtime 中（配合 Kubernetes 1.27+），你可以启用 MetadataOnly Client。它基于 APIServer 的 PartialObjectMetadata API，Informer 在本地仅缓存对象的 ObjectMeta 结构体，这能将数百 MB 的 Cache OOM 风险直接降维到几 MB。

Q3：为什么我加上了 FieldIndexer，Operator 启动时还是对 APIServer 造成了 Watch 风暴？ 检查你启动 Manager 时的 Options.Cache 配置。默认行为是全局监控（Watch All Namespaces）。如果你是一个 Namespace-scoped 的 Operator，务必在 Cache 配置中指定 DefaultNamespaces 列表。否则，每个 GVK 的 Informer 启动时依然会触发集群全量 Resync。
2026年6月5日
突破 OOM 死亡循环：Prometheus 高基数指标引发的 TSDB 内存雪崩与底层结构解析实战
结论先行：Prometheus 频繁 OOM 且 WAL 截断失败，99% 的根因是高基数（High Cardinality）标签打穿了 Head Block 的倒排索引。底层 Gorilla 压缩算法只能极大地优化时序“值”的存储（16字节压缩至约1.37字节），但救不了无限膨胀的 Label 组合。解决方案：通过 promtool tsdb analyze 定位基数元凶，用 metric_relabel_configs 在抓取阶段实行防御性清洗，并合理配置 TSDB 的 Block 压缩与落盘周期。

某次排查过程中，我们线上一套监控几十个 K8S 集群的核心 Prometheus（v2.45.0）节点陷入了 CrashLoopBackOff 的死亡循环。告警静默，监控大屏一片空白。

查看系统内核日志，死因极其明确——被 OOM Killer 制裁：
```
$ dmesg -T | grep -i oom
[xxx] prometheus invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
[xxx] Memory cgroup out of memory: Killed process 12345 (prometheus) total-vm:85493200kB, anon-rss:67108864kB
```
物理机分配了 64GB 内存给这个容器，居然在几分钟内被吃干抹净。这绝不是正常的指标写入量增长，而是典型的“高基数雪崩”。

寻找雪崩元凶：拨开 WAL 与 Head Block 的迷雾

Prometheus 的 TSDB 设计基于内存（Head Block）与磁盘（Persistent Block）的组合。最新采集的 2-3 小时数据全部驻留在内存中，并依靠 WAL（Write-Ahead Log）保证不丢数据。每次 Prometheus OOM 重启后，第一件事就是 Replaying WAL。如果导致 OOM 的高基数数据还在 WAL 里，重启过程必将再次吃满内存，形成死循环。

为了强行中断这个循环，我们先将该节点的内存限制临时放大到 128GB 让其启动，随后立即使用官方神器 promtool 对本地数据目录进行离线解剖：
```
$ promtool tsdb analyze /prometheus/data
...
# Top 10 label names with high memory usage:
1: trace_id
2: client_ip
3: pod_ip

# Top 10 series count by metric names:
1: 4501230  http_request_duration_seconds_bucket
2: 2100450  http_requests_total
...
```
破案了。某业务研发在 http_requests_total 和耗时直方图里，顺手加上了 trace_id 和 client_ip 作为 Label。

为什么仅仅是多加了一个 Label，就会耗尽上百 GB 的内存？

很多开发对时序数据库有误解，认为“Prometheus 压缩率很高，多加个字段无所谓”。这就必须深入 TSDB 的底层数据结构来解释。

在 Prometheus 中，一条时间线（Series）由 Metric Name 和一组 Label 键值对唯一确定。 http_requests_total{method="GET", status="200", client_ip="192.168.1.10", trace_id="abc123xxx"}

TSDB 处理数据分为两大核心路径：数据块（Chunks）与倒排索引（Inverted Index）。
1. Chunks 的极致压缩（Gorilla 算法） 对于属于同一条时间线的连续样本数据 (Timestamp, Value)，Prometheus 采用了类似 Facebook Gorilla 论文中的 XOR 增量压缩算法。因为时间戳通常是规律递增的（如 15s 一次），Value 往往变化极小。通过计算差值的差值（Delta-of-Delta），一对原本需要 16 Bytes（8 Byte int64 时间戳 + 8 Byte float64 值）的样本，能被压缩到平均 1.37 Bytes。这就是大家常说的“高压缩率”。
2. 倒排索引的内存黑洞 Gorilla 压缩对 Label 完全无效。为了能让 PromQL 飞速查询，Prometheus 必须为每一个 Label 的 Name 和 Value 建立倒排索引映射： Label (client_ip="192.168.1.10") -> [Series ID 1, Series ID 205...] 当引入 trace_id 这种几乎每次请求都不同的 Label 时，Series 的数量等于所有 Label 基数的笛卡尔积。百万级别的 trace_id 瞬间生成了数百万条独立的 Series。每条全新 Series 的诞生，都会在 Head Block 中分配新的字符串内存（Symbols table）、新的倒排索引指针（Postings list），以及独立的数据 Chunk。内存消耗呈现指数级爆炸，且完全无法被压缩。
当这些海量的内存结构积压在 Head Block（默认驻留时间最多达 3 小时），内存自然会瞬间被打穿。

落地实战：防御性清洗与架构调优

对于这种毒瘤级的指标，我们绝不妥协，必须在网关侧/采集侧直接干掉，实施“防御性运维”。

1. 采集端防御配置（metric_relabel_configs） 在 Prometheus 的 scrape_configs 中，利用 metric_relabel_configs 在指标进入 TSDB 引擎前将其截杀。注意，不要用 relabel_configs（作用于 target 发现阶段），必须用 metric_relabel_configs：
```
scrape_configs:
  - job_name: 'business-api'
    ...
    metric_relabel_configs:
      # 方案一：直接丢弃整个包含了违规 Label 的指标序列（下手最狠）
      - source_labels: [trace_id]
        regex: '.+'
        action: drop

      # 方案二：保留指标，但抹除高基数 Label（推荐，保证监控不丢失总并发量）
      - regex: '(trace_id|client_ip)'
        action: labeldrop
```
加载配置 (curl -X POST http://localhost:9090/-/reload) 后，新的数据洪流被清洗干净。

2. TSDB 块生命周期（Compaction）调优 为了让 Prometheus 尽快清理掉历史遗留的庞大 Head Block，我们需要理解 TSDB 的落盘（Compaction）机制。 Head Block 中的数据达到特定条件会切分成持久化的 Block 目录（包含 meta.json, index, chunks/, tombstones）。

如果服务器内存吃紧，我们可以适当干预落盘周期（启动参数配置）：
```
# 默认 min-block-duration 为 2h，决定了 Head 块多久切片一次落盘。
# 强制保持一致，避免块过大难以合并
--storage.tsdb.min-block-duration=2h
--storage.tsdb.max-block-duration=24h
```
持久化到磁盘后的 Block 会被通过 mmap 的方式映射到虚拟内存空间（VIRT），此时只要不进行全量范围的 PromQL 查询，这部分数据对物理内存（RES）的占用将大幅度降低，由 Linux 内核的 PageCache 全权接管。

3. 清理已存在的毒瘤数据（Tombstones 机制） 对于历史的脏数据，可以使用 Admin API 软删除：
```
curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={trace_id=~".+"}'
```
执行后，数据不会立刻从磁盘消失，而是写入到 Block 目录下的 tombstones 文件中。后续的 Compaction 过程会读取该文件并真正剔除无用数据。如果需要强制立即清理磁盘，可调用：
```
curl -X POST http://localhost:9090/api/v1/admin/tsdb/clean_tombstones
```
常见问题 (FAQ)

Q1：为什么通过 metric_relabel_configs 删除了高基数 Label，Prometheus 的物理内存（RES）并没有立刻下降？ A：这是符合预期的。由于 Prometheus TSDB Head Block 的机制，数据通常要在内存中攒满 2 小时（加上最长允许的 1 小时 overlap）才会执行落盘并释放内存。即使新抓取的数据不再含有高基数标签，旧的庞大倒排索引依然存活在内存里。你需要耐心等待下一次 Head 切片，或者干脆重启进程，配合之前放宽的内存上限让 WAL 重放完成后，内存自然回落。

Q2：Prometheus 发生 OOM 重启后，启动特别慢，日志一直卡在 Replaying WAL 是什么情况？ A：Prometheus 只有正常退出时，才会将 Head Block 里的内容做 Checkpoint 或者全量 Flush 落盘。OOM 属于非正常崩溃，内存数据丢失。重启后，它必须逐行读取 data/wal/ 目录下的日志以在内存中重建倒排索引和 Chunks。如果 WAL 高达几十个 GB，这个过程将极其漫长（且高度依赖磁盘 IOPS）。建议将 TSDB 部署在企业级 NVMe SSD 上，这是监控系统的底线。

Q3：我可以通过降低抓取频率（将 scrape_interval 从 15s 调整为 60s）来缓解高基数导致的 OOM 吗？ A：不能，这是经典误区。scrape_interval 影响的是同一条 Series 每分钟追加的样本点数量。这部分数据被 Gorilla XOR 算法高效压缩，占用极小。导致 OOM 的是 Series 的总数（基数规模）膨胀，进而撑爆了不可压缩的倒排索引表。无论是 15s 抓取一次还是 1 分钟抓取一次，只要这几百万个带唯一 trace_id 的 Label 依然存在，生成的索引内存消耗是一模一样的。
2026年4月18日

标签： OOM排查

深入 Apache Pulsar 雪崩排查：大负载滥用引发的 Bookie OOM 与 Zookeeper Ledger 元数据风暴

案发现场与指标崩盘

底层原理解析：大消息为何引发全局雪崩？

现场恢复与架构调整

排查清单：Pulsar 写入雪崩同类问题速查

深入 K8S Operator 内存 OOM 排查：缺失 FieldIndexer 引发的 Informer Cache 爆炸与 Finalizer 死锁实战

故障现场：Operator 频繁 OOM 与僵尸 CR 风暴

为什么滥用 client.List 会导致 Informer Cache 撑爆？

实战解法：注入 FieldIndexer 下推索引

1. 注册索引 (SetupWithManager)

2. 重构 Reconcile 逻辑

打破 Finalizer 级联死锁

防御性 Finalizer 编排范式

常见问题 (Q&A)

突破 OOM 死亡循环：Prometheus 高基数指标引发的 TSDB 内存雪崩与底层结构解析实战

寻找雪崩元凶：拨开 WAL 与 Head Block 的迷雾

为什么仅仅是多加了一个 Label，就会耗尽上百 GB 的内存？

落地实战：防御性清洗与架构调优

常见问题 (FAQ)