• 深入 Etcd 频繁切主雪崩排查:磁盘 fsync 抖动引发的 Raft 选举风暴与 Pre-Vote 防御实战

    近期排查了一起极其恶心的 K8S 生产环境雪崩事故:API Server 频繁报 context deadline exceeded,核心链路的 P99 延迟阶段性飙升至 10s 以上。顺藤摸瓜排查底层,直指 Etcd 集群在疯狂进行 Leader 选举。

    直接抛出排查结论:这是典型的底层磁盘 IO 抖动引发的 Raft 选主风暴。某台 Etcd 节点因宿主机共享存储争抢,导致写前日志(WAL)的 fdatasync() 系统调用延迟偶尔飙升至 1.5s 以上,触发了该节点内部的 Follower 选举超时。该节点随即带着更高的 Term(任期号)向全网发起 RequestVote,直接迫使原本完全健康的 Leader 无条件退位。最终,通过将 WAL 剥离至独立 NVMe 盘、重新校准超时参数,并强制开启 Raft Pre-Vote 机制,才彻底镇压了这场风暴。

    案发现场:不要看着 CPU 告警南辕北辙

    当时的监控大盘一片惨红,Prometheus 上的核心指标 etcd_server_leader_changes_seen_total 像心电图一样剧烈跳动,一小时内切主高达 40 多次。登录 Etcd 节点抓取日志,满屏都是刺眼的告警:

    {"level":"warn","msg":"server is likely overloaded","take":"1.52s"}
    {"level":"warn","msg":"failed to send out heartbeat on time","issue":"heartbeat timeout"}
    {"level":"info","msg":"raft.node: 3a1b2c elected leader 4d5e6f at term 1234"}
    {"level":"warn","msg":"apply entries took too long","took":"1.1s","expected-duration":"100ms"}
    

    许多半吊子运维看到 server is likely overloaded 这句话,第一反应就是去给虚拟机无脑加 CPU 核心数,这纯属南辕北辙。Etcd 作为强一致性的分布式键值存储,其性能的阿喀琉斯之踵在于磁盘同步写的延迟,而非 CPU 算力。

    现场的架构设计简直是把分布式共识引擎当成了垃圾桶:这套 Etcd 集群的数据目录没有独立挂载,跟业务线高吞吐的批处理应用共用同一个普通企业级 SSD 的 LVM 卷。当业务线爆发密集写入时,底层块设备的 IOPS 被榨干,Etcd 的 WAL 刷盘请求被迫排队。

    原理扒皮:Raft 协议的“无情”与捣乱者难题

    为什么一台 Follower 节点的磁盘变慢,会导致整个健康的集群陷入不可用?这就必须扒一扒 Raft 共识算法的底层逻辑。

    在 Raft 协议中,Leader 通过定期发送心跳(Etcd 默认 heartbeat-interval=100ms)来压制手下的 Follower。Follower 内部有一个倒计时器(默认 election-timeout=1000ms),如果在 1 秒内没收到 Leader 的心跳,就会判定 Leader 已死,随时准备篡位。

    关键的命门在于:Raft 认 Term(任期)不认人,且 Term 单调递增。

    当那个因为磁盘慢而卡死的节点(假设为 Node B)发生 IO 阻塞超过 1 秒时,它错过了心跳处理,导致倒计时归零。Node B 从 IO 阻塞中苏醒后,第一件事就是将自己的 Term 加 1(比如从 10 升级到 11),状态切换为 Candidate,并向全网广播 RequestVote 拉票。

    此时,原 Leader(Node A)和正常的 Follower(Node C)的网络完全畅通,心跳也在正常打。但是,当健康的 Leader Node A 收到来自 Node B 的 Term=11 请求时,Raft 规则的无情一面就体现出来了:任何节点,只要看到比自己当前 Term 更大的数字,必须立刻放弃抵抗,无条件降级为 Follower。

    于是,Node A 乖乖交出统治权,集群立刻进入只读停顿状态,开始重新选举。由于 Node B 磁盘奇慢,它的日志大概率落后于 A 和 C,根本不可能赢得多数派选票。最终 A 或 C 重新当选 Leader。但好景不长,只要 Node B 的磁盘再卡一次,它就会生成 Term=12 再次发起冲击。

    这就是分布式系统中经典的 捣乱者问题(Disruptive Server)。一个实际上已经半残的节点,通过不断自增 Term,把整个原本健康的集群拖入无尽的选举深渊。

    防御与落地:Pre-Vote 与硬件隔离

    修复这个架构缺陷,需要从软件防御和硬件隔离双管齐下。

    1. 软件防御:强制启用 Pre-Vote 机制

    Raft 论文的作者后来意识到这个设计缺陷,提出了 Pre-Vote(预投票) 扩展机制。其核心思想是:在节点真正增加 Term 并发起选举之前,先发起一轮“模拟投票”:问问其他节点“如果我发起选举,你们会投我吗?”。

    在上述场景中,当 Node B 醒来发起 Pre-Vote 时,由于健康的 Node A 和 Node C 仍在正常交换心跳,它们会果断拒绝 Node B 的预投票请求。Node B 拿不到多数派许可,就不敢私自增加自己的 Term,从而完美保护了现有 Leader 的统治。

    排查时发现,这个老旧的集群居然显式禁用了该机制。果断在启动参数中加上 --pre-vote=true(Etcd 3.4+ 默认已开启,但需严防老配置覆盖),从协议层面斩断了雪崩的可能。

    2. 硬件与架构防御:敬畏 WAL 的落盘机制

    Etcd 每次事务提交,都必须调用 fdatasync() 将 WAL 强制刷入磁盘,这一步不能有任何水分。

    • 物理隔离:通过 --wal-dir 参数,强制将写前日志挂载到独占的 NVMe 磁盘上,与普通数据 --data-dir 分开,彻底消除 IO 争抢。

    • 参数重整:不要迷信默认参数配置。在网络 RTT 存在微小抖动或 IO 无法做到极致隔离的场景,修改参数:heartbeat-interval=250election-timeout=2500。法则是:选举超时时间必须至少是心跳间隔的 10 倍以上,给系统底层留出喘息的缓冲区。

    同类问题速查(排查清单)

    1. 核心指标抓取:优先排查 Prometheus 中的 etcd_disk_wal_fsync_duration_seconds_p99,如果该指标频繁超过 100ms(甚至达到秒级),必定会触发选举,立刻检查磁盘 IO 状态。

    2. 审查网络 RTT:查看 etcd_network_peer_round_trip_time_seconds,若跨 AZ 部署导致网络延迟超过 50ms,默认的 1000ms 选举超时极其危险,需按比例放大超时参数。

    3. 确认 Pre-Vote 状态:通过 Etcd 启动日志或命令 etcd --version 确认版本号,排查配置文件确保未设置 PreVote: false

    4. 清理僵尸节点:如果集群中长期存在断联的僵尸节点(Member List 存在但进程已死),一旦它复活且网络连通,极大概率会带着巨大的过期 Term 冲击当前 Leader。务必及时 member remove 掉长期掉线的节点。

  • 深入 K8S Operator 队列阻塞排查:默认 RateLimiter 陷阱引发的 Reconcile 延迟与 Informer 机制原理解析

    很多 Operator 开发常遇到 CR 资源长时间未被处理的“假死”现象。核心原因往往是代码无脑返回 error,触发了 controller-runtime 默认的指数退避 RateLimiter,导致单对象最大重试延迟飙升至 1000 秒。通过自定义限速器、精细化控制 RequeueAfter,并接入 workqueue 核心指标监控,可彻底消除此类调谐阻塞。

    故障现场:消失的 Reconcile

    排查过程中接到研发反馈,某集群(K8S 1.28)中的核心 Operator 在平稳运行一段时间后,新建的 Custom Resource (CR) 状态迟迟无法流转。 检查 Pod 状态,CPU 和内存水位均在 20% 以下,Goroutine 数量稳定,没有出现常见的 OOM 或死锁。查看 Operator 日志,没有看到任何 Panic,仅仅是偶尔打印几条调用外部云平台 API 超时的 error 日志。

    但拉出 Prometheus 监控一看,暴露出致命问题:

    • workqueue_depth(队列深度)处于极低水平(趋近于0)。

    • workqueue_queue_duration_seconds_bucket 的 P99 延迟高达 800 秒以上。

    • workqueue_retries_total 呈现缓慢上涨趋势。

    这是一种典型的“队列逻辑阻塞”现象。Goroutine 没死,Informer 还在正常 Watch,但任务被死死卡在了 client-go 的延迟队列(DelayingQueue)里。

    为什么默认 RateLimiter 会导致 Reconcile 假死?

    在基于 controller-runtime(以 v0.16.3 为例)开发的 Operator 中,Reconcile 循环是业务逻辑的核心。开发者最常写的错误代码如下:

    func (r *MyReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
        // 1. 获取 CR
        // 2. 调用外部依赖(例如某云厂商的 SLB API)
        err := r.callExternalAPI()
        if err != nil {
            // 🚨 灾难的开始:无脑返回 error
            return ctrl.Result{}, err 
        }
        return ctrl.Result{}, nil
    }
    

    Reconcile 返回 error 不为 nil 时,controller-runtime 的 worker 会调用 workqueue.AddRateLimited(item) 将该对象的 key 重新塞回队列。

    那么,它多久会被重新处理?这就引出了底层 client-go 的默认限速器实现。controller-runtime 默认使用的 RateLimiter 是 workqueue.DefaultControllerRateLimiter(),其底层包含两个限速器:

    // 截取自 client-go/util/workqueue/default_rate_limiters.go
    func DefaultControllerRateLimiter() RateLimiter {
        return NewMaxOfRateLimiter(
            NewItemExponentialFailureRateLimiter(5*time.Millisecond, 1000*time.Second),
            // 10 qps, 100 bucket size
            &BucketRateLimiter{Limiter: rate.NewLimiter(rate.Limit(10), 100)},
        )
    }
    

    注意看 NewItemExponentialFailureRateLimiter 的参数:基础延迟 5ms,最大延迟 1000s(约 16.6 分钟)。 如果你的外部 API 发生短暂的网络抖动或限流,导致连续报错:

    • 第 1 次重试:5ms

    • 第 5 次重试:80ms

    • 第 10 次重试:2.56s

    • 第 15 次重试:81s

    • 第 18 次重试及以后:直接封顶 1000s

    一旦达到 1000s,哪怕此时外部 API 已经恢复正常,你的 Operator 依然需要干等十多分钟才会再次调谐这个 CR。在用户视角看来,就是 Operator 彻底“假死”了。

    Informer 的 Resync 机制能救场吗?

    有人可能会想:Informer 不是有 Resync 机制吗?定期强制同步能不能打破这个僵局?

    答案是:不能。

    理解这个结论需要吃透 Informer 与 Workqueue 的联动机制:

    1. Resync 的本质,是 Informer 将本地 Indexer(缓存)中的全量对象,重新放入 DeltaFIFO 队列中,打上 Sync 类型的标签。

    2. EventHandler 监听到 Sync 事件后,会将其转换为 Reconcile 请求放入 Workqueue。

    3. 但是,Workqueue 的排重机制(Deduplication)规定:如果一个 Key 已经在 dirty 集合中(比如它正处于 RateLimiter 的延迟队列里倒计时),新的入队请求会被忽略或合并

    换句话说,只要你的 CR 还在 1000s 的退避惩罚期内,即使 Informer 触发了 Resync,也无法强制它提前执行。更何况,controller-runtime 默认的 Resync 周期是 10 小时。

    防御性编程:重写限速器与重试逻辑

    要根治这个问题,必须从两个层面下手:替换默认 RateLimiter 和 精细化处理 Reconcile 返回值。

    1. 替换控制器的默认 RateLimiter

    在 SetupWithManager 时,注入自定义的 RateLimiter,将最大退避时间限制在业务可接受的范围内(例如最大 30 秒)。

    import (
        "golang.org/x/time/rate"
        "k8s.io/client-go/util/workqueue"
        ctrl "sigs.k8s.io/controller-runtime"
        "sigs.k8s.io/controller-runtime/pkg/controller"
        "time"
    )
    
    func (r *MyReconciler) SetupWithManager(mgr ctrl.Manager) error {
        // 自定义限速器:基础延迟 100ms,最大延迟 30s
        customRateLimiter := workqueue.NewMaxOfRateLimiter(
            workqueue.NewItemExponentialFailureRateLimiter(100*time.Millisecond, 30*time.Second),
            &workqueue.BucketRateLimiter{Limiter: rate.NewLimiter(rate.Limit(10), 100)},
        )
    
        return ctrl.NewControllerManagedBy(mgr).
            For(&appv1.MyCRD{}).
            WithOptions(controller.Options{
                RateLimiter: customRateLimiter, // 替换默认限速器
                MaxConcurrentReconciles: 5,     // 提升并发度
            }).
            Complete(r)
    }
    

    2. 精细化 Reconcile 的返回值设计

    绝对不要一遇到错误就 return ctrl.Result{}, err。应当区分 系统级错误预期内重试

    func (r *MyReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
        // ... 获取对象 ...
    
        err := r.callExternalAPI()
        if err != nil {
            if errors.Is(err, ErrTransientNetwork) || errors.Is(err, ErrAPILimit) {
                // 预期内的瞬态错误,不要返回 error 触发退避惩罚!
                // 使用 RequeueAfter 指定固定延迟重试
                log.Info("外部接口限流,5秒后重试")
                return ctrl.Result{RequeueAfter: 5 * time.Second}, nil
            }
    
            // 真正的致命错误(如 RBAC 权限不足、CRD 结构损坏),才返回 err
            return ctrl.Result{}, err
        }
    
        return ctrl.Result{}, nil
    }
    

    通过返回 ctrl.Result{RequeueAfter: 5 * time.Second}, nilcontroller-runtime 会直接将该 Key 丢进延迟队列,5秒后准时出队,完全绕过 RateLimiter 的指数退避计数器

    常见问题 (FAQ)

    Q1:Reconcile 中返回 error 和返回 Requeue: true 有什么本质区别?

    返回 error != nil 会触发 RateLimiter 的计数器加 1,下一次重试时间呈指数级增长;而返回 ctrl.Result{Requeue: true}, nil 不会增加限速器的错误计数,它等同于被 RateLimiter 视为一次“成功”的处理,随后立即重新入队(仅受 BucketRateLimiter 的令牌桶限制),如果滥用极易造成 CPU 飙升。

    Q2:如何通过 Prometheus 准确监控 Operator 的队列健康度?

    强烈建议收集并配置以下告警规则(以 kube-state-metrics 或 controller-runtime 默认 metrics 接口为准):

    • workqueue_depth{name=""} > 100 持续 5 分钟(判断队列积压)。

    • rate(workqueue_adds_total[5m])rate(workqueue_work_duration_seconds_count[5m]) 出现明显剪刀差(判断处理跟不上生产)。

    • workqueue_longest_running_processor_seconds > 60s (判断是否存在死锁或超长阻塞的单次 Reconcile)。

    Q3:修改了 CRD 对象,但 Operator 迟迟没收到 Update 事件?

    这种情况多半与 Informer 的机制无关,需排查是否被 Webhook 拦截,或者由于 API Server 负载过高导致 Watch 连接断开正在执行 Relist。如果 workqueue_depth 毫无波澜,说明事件根本没进队列,排查重点应转向 RBAC 权限(是否拥有 watch/list 权限)或 APIServer 的 audit log。

  • 深入 Zabbix 监控雪崩排查:Proxy 积压引发的 History Syncer 阻塞与数据库底层调优实战

    Zabbix 队列风暴的元凶往往不是 Server 计算能力不足,而是底层数据库 IO 瓶颈与 Proxy 离线数据猛灌。本文通过排查某次 NVPS 突发至 35k 导致的 History Syncer 打满与监控瘫痪事件,深入解析 MySQL 8.0 针对 Zabbix 写入优化的底层逻辑,并给出 Proxy 防御性配置与模板预处理过滤的实战方案。

    故障现场:History Syncer 进程 100% 死亡螺旋

    某次排查过程中,一套承载 20,000+ 主机、2,000,000+ 监控项的 Zabbix 6.0.22 LTS 集群突发严重告警。现象非常典型:

    1. Zabbix Queue 爆炸:延迟超过 10 分钟的 item 数量瞬间飙升到 150,000 以上。

    2. 内部进程打满:Zabbix Server 告警 Zabbix server history syncer processes more than 100% busy

    3. 前端瘫痪:Web 界面卡死,报 Zabbix server is not running: the information displayed may not be current

    查看 zabbix_server.log,满屏的慢查询和超时:

    23851:20231012:142211.512 [Z3005] query failed: [1205] Lock wait timeout exceeded; try restarting transaction [insert into history_uint (itemid,clock,ns,value) values (152342,1697101321,213412,0),(...)]
    23851:20231012:142215.123 server #12 active [history syncer #4]
    23851:20231012:142215.123 Zabbix server history syncer processes 100% busy
    

    很明显,数据落盘卡住了。History Syncer 负责将内存 cache 中的监控数据批量写入底层 MySQL。一旦它被阻塞,Server 内存中的 History Cache 会迅速耗尽,触发自我保护机制,拒绝接收任何新数据,最终导致 Poller 和 Trapper 进程全部雪崩。

    登陆底层 MySQL 8.0.34 节点,敲下 iostat -x 1,看到数据盘的 %util 稳稳地锁死在 100%,await 高达 200ms+。

    为什么 Proxy 断网恢复会导致 Zabbix Server 瞬间雪崩?

    排查发现,在雪崩发生前 15 分钟,某跨机房专线发生了短暂抖动。该机房部署了 3 台 Zabbix Proxy(Active 模式),承载了约 8,000 台主机的监控抓取。

    这里牵扯到 Zabbix Proxy 的底层工作机制。Proxy 默认会将采集到的数据暂存在本地的 SQLite3(或 MySQL)中。当与 Server 断开连接时,Proxy 会根据 ProxyOfflineBuffer 的配置(默认 1 小时)在本地堆积数据。

    雪崩的逻辑链条:

    1. 专线抖动,3 台 Proxy 与 Server 失联,期间不断采集并缓存数据到本地。

    2. 专线恢复,Proxy 瞬间将积压的数十万条历史数据打包。

    3. Proxy 根据 DataSenderFrequency=1(每秒发送)无脑向 Server 的 Trapper 进程猛灌。

    4. Server 的 Trapper 进程将海量数据塞入 History Cache。

    5. History Syncer 进程全速运转,向 MySQL 发起天量 INSERT INTO history... 请求。

    6. MySQL InnoDB Buffer Pool 的脏页刷新速率跟不上写入速率,Redo Log 爆满,触发同步刷盘,导致 IO 彻底僵死。

    防御性配置:限制 Proxy 突发流量

    为了防止类似情况再次发生,必须对 Proxy 的回传机制进行限流。

    1. 调优 Proxy 端缓存发送频率与体积 不要让 Proxy 一次性将积压数据全吐出来。在 zabbix_proxy.conf 中调整:

    # ProxyOfflineBuffer=1 # 离线缓存保留时间,不要设置太大,无意义的历史数据宁可丢弃
    DataSenderFrequency=1
    # 增加批量发送的限制(隐式受制于 Server 端 Trapper 进程处理能力)
    

    注:Zabbix 6.0 引入了 Proxy 内存缓存机制,但在面对海量离线回传时,核心仍是保护 Server 的 DB IO。

    2. 调优 Server 端接收与刷盘并发zabbix_server.conf 中调整:

    # 控制 Trapper 进程数,不要无限调大,防止压垮 History Cache
    StartTrappers=50
    # 增加 History Cache 大小,做大内存缓冲池,争取时间
    HistoryCacheSize=2G
    HistoryIndexCacheSize=512M
    # 增加 Syncer 进程数,但不要超过 DB 磁盘阵列的物理 IO 并发能力上限
    StartHistoryPollers=20
    

    数据库底层调优:拯救被压垮的 MySQL 8.0

    Zabbix 是一个典型的“读少写极其密集”的系统,标准的 MySQL 默认配置在这里就是灾难。针对本次 IO 瓶颈,我们在 my.cnf 中进行了以下针对性调优。

    1. 禁用 Doublewrite Buffer 与放宽事务持久性

    由于 Zabbix 数据并非金融级账本,丢失一两秒的监控数据完全可以接受。

    [mysqld]
    # 核心:将事务刷盘策略改为 2。每次提交仅写入 OS Cache,每秒刷盘一次。
    # 直接将 IOPS 需求降低一个数量级。
    innodb_flush_log_at_trx_commit = 2
    
    # 针对支持原子写的存储设备(如现代 NVMe SSD 或部分企业级 SAN),关闭双写缓冲
    innodb_doublewrite = 0
    
    # 优化 Redo log 大小,防止频繁触发 Checkpoint 导致 IO 抖动
    innodb_redo_log_capacity = 4G # MySQL 8.0.30+ 的新参数,替代旧的 innodb_log_file_size
    

    2. 匹配硬件的 InnoDB IO 刷盘能力

    MySQL 默认假设你的磁盘很慢(innodb_io_capacity=200),这会导致在 SSD 环境下脏页刷得太慢,最终堆积引发急剧抖动。

    # 根据实际 FIO 测试结果配置
    innodb_io_capacity = 3000
    innodb_io_capacity_max = 6000
    innodb_flush_sync = OFF # 避免 Checkpoint 时卡死用户查询
    

    3. 表分区与废弃 Housekeeper

    导致底层 IO 缓慢的另一个隐患是 Zabbix 自带的 Housekeeper 清理进程。它通过 DELETE FROM history WHERE clock < ... 清理过期数据,这在海量数据下会产生巨大的锁竞争和 Undo Log 开销。

    必须彻底关闭 Housekeeper 对历史表和趋势表的清理: Web 界面:Administration -> General -> Housekeeping,关闭 History and TrendEnable internal housekeeping

    替代方案:使用 MySQL 表分区(Table Partitioning)。 每天为 historyhistory_uinthistory_str 等表建一个新分区,清理数据时直接 ALTER TABLE ... DROP PARTITION,这是元数据操作,耗时 0.1 秒,没有任何 IO 负担。

    自定义模板防作死指南:在 Proxy 侧掐断垃圾数据

    数据库调优只是续命,真正的治本之策是降低 NVPS(New Values Per Second)。排查中发现,某开发团队的自定义模板中,有一个抓取应用日志错误状态的 item,类型居然是 Text,且每 5 秒抓取一次。无论状态是否改变,全量文本都在往 DB 里塞,直接打爆了 history_str 表。

    过滤绝招:Discard unchanged with heartbeat

    利用 Zabbix 的 Preprocessing(预处理)功能,直接在 Proxy 内存中过滤掉无用数据,根本不让它通过网络发给 Server。

    配置步骤:

    1. 打开 Item 的 Preprocessing 选项卡。

    2. 添加 Step:Discard unchanged with heartbeat

    3. 参数设置为 1h(或 3600s)。

    原理解析: 如果该 Item 的值相比上次抓取没有发生变化,Proxy 会直接将这个数据丢弃,不往 Server 发送。只有当值发生变化,或者超过设定的 heartbeat 时间(比如 1 小时没有变化),才会发送一次数据保持激活。 仅仅配置了这一项,我们的整体 NVPS 从 35,000 直接断崖式下降到 12,000,MySQL IO 负载瞬间降至 15% 以下。

    常见问题

    Q1:Web 界面经常报 Zabbix Server is not running,但查看进程都在,怎么回事? 通常是因为 PHP 前端通过 TCP 10051 端口请求 Server 的 StartTrappers 进程超时。大概率是因为 History Syncer 阻塞,导致 Trapper 进程全都在等待获取 Cache 锁。检查数据库负载,或适当增加 StartTrappers 数量。

    Q2:StartPollers 到底设置多少合适?为什么我设了 1000 还是不够? 千万不要无脑调大 Poller 数量。Poller 过多会导致严重的上下文切换和内存消耗。查看 Zabbix server data collector processes 图表,如果 Poller 使用率长期 > 75%,首先应该考虑将监控项改为 Active 模式(让 Agent 主动推),或者把采集任务剥离给下层 Proxy。

    Q3:存在大量 SNMP 监控导致 Poller 经常超时卡死,如何缓解? SNMP 采用 UDP,极易丢包阻塞。最佳实践:1) 将 SNMP 采集全部下放给专属的 Zabbix Proxy,将故障隔离;2) 在 Host 级别勾选 Use bulk requests;3) 在 zabbix_server.confzabbix_proxy.conf 中增加 Timeout=15(默认只有 3 秒,对于老旧交换机绝对不够)。

  • 深入 eBPF/XDP 网络雪崩排查:Netfilter 软中断打满引发的丢包与 XDP 内核级加速防御实战

    高并发下 Netfilter 必然成为性能瓶颈。排查某次网关节点大面积丢包时,确认系海量小包打满 ksoftirqdnf_conntrack 溢出导致。直接抛弃 iptables 方案,通过 eBPF 挂载 XDP 程序在网卡驱动层(SKB 分配前)进行拦截与转发,CPU 软中断开销骤降 80%,99线延迟从 200ms 恢复至 2ms,系统吞吐量提升三个数量级。

    故障现场:ksoftirqd 榨干 CPU 与 Conntrack 溢出

    某次生产环境的高并发突发流量下,K8S Ingress 节点(OS: Ubuntu 22.04, 内核 Linux 5.15)出现大面积请求超时。前端监控显示 99 线延迟飙升至 200ms 以上,甚至出现 502/504 错误。

    登录宿主机,第一眼看系统负载:

    $ uptime
     10:14:32 up 45 days, 14:20,  2 users,  load average: 84.12, 75.33, 60.10
    

    Load Average 极高,敲击键盘都有迟滞感。直接看 CPU 消耗,top 里的 si(Soft Interrupt)指标在多个核心上死死顶在 100%,相关的进程全是 ksoftirqd/n

    %Cpu(s):  1.5 us,  3.2 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi, 95.3 si,  0.0 st
      PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
       14 root      20   0       0      0      0 R  99.9   0.0  10:23.12 ksoftirqd/1
       20 root      20   0       0      0      0 R  99.9   0.0   9:14.05 ksoftirqd/2
    

    与此同时,dmesg 中正在疯狂刷屏经典报错:

    $ dmesg -T | tail -n 5
    [Thu Oct 12 10:15:01 2023] nf_conntrack: nf_conntrack: table full, dropping packet
    [Thu Oct 12 10:15:01 2023] nf_conntrack: nf_conntrack: table full, dropping packet
    

    典型的网络软中断风暴 + 连接跟踪表打满。虽然通过 sysctl -w net.netfilter.nf_conntrack_max=2097152 临时缓解了丢包,但这只是扬汤止沸,软中断依然居高不下,节点的网络栈已经处于半瘫痪状态。

    为什么传统的 iptables/Netfilter 在高并发下必然雪崩?

    要理解这场雪崩,必须拆解 Linux 传统的网络收包路径。

    当网卡收到一个数据包时,硬中断触发后,真正的重头戏在软中断 NET_RX_SOFTIRQ。此时,内核会为每个数据包调用 __alloc_skb() 分配一个 sk_buff 结构体。这个结构体极其庞大(通常包含数百个字段),高频的内存分配和释放本身就是巨大的开销。

    紧接着,包会进入内核协议栈,穿越 Netfilter 的重重关卡(PREROUTING, INPUT, FORWARD 等)。如果是 K8S 环境,kube-proxy 写入的数万条 iptables 规则会以线性或树状(ipset)进行匹配。最致命的是 Conntrack(连接跟踪) 机制。每次建连,内核都要加锁更新连接状态表。当 PPS(每秒包数)达到数十万级别时,nf_conntrack 的自旋锁竞争会导致 CPU 缓存命中率暴跌,最终表现为 ksoftirqd 吃满 CPU,后续的包连 sk_buff 都分配不到,直接在网卡 Ring Buffer 处被丢弃。

    可观测性介入:用 eBPF/bpftrace 精准定位丢包点

    在实施改造前,我们需要硬核的数据佐证。只看 dmesg 不够,到底包是在协议栈的哪一步被 Drop 的? 利用 bpftrace 编写一行脚本,直接 Hook 内核的 kfree_skb 函数(内核丢弃数据包时通常会调用它),并打印调用栈:

    # 依赖环境: bpftrace 0.14.0+
    $ bpftrace -e 'kprobe:kfree_skb /comm == "ksoftirqd/1"/ { @[kstack] = count(); }'
    

    运行 10 秒后 Ctrl+C 停止,输出的核心堆栈如下:

    @[
        kfree_skb+1
        nf_conntrack_in+1345
        ipv4_conntrack_in+28
        nf_hook_slow+66
        ip_rcv+165
        __netif_receive_skb_core+2180
        net_rx_action+354
        __do_softirq+215
        run_ksoftirqd+42
    ]: 45210
    

    数据确凿:短短 10 秒内,在 nf_conntrack_in 链路下触发了 4.5 万次 kfree_skb。传统的防御方案(如加机器、调大 sysctl 参数)在百万级 PPS 面前毫无招架之力。必须进行降维打击——绕过 sk_buff 和 Netfilter。

    降维打击:XDP (eXpress Data Path) 零拷贝拦截实战

    XDP 是基于 eBPF 的一项技术,它允许我们在网卡驱动层,即数据包刚通过 DMA 拷贝到内存,尚未分配 sk_buff 之前,执行我们自定义的 eBPF 程序。

    排查过程中,我们发现异常流量具有明显的端口和 IP 聚集特征。直接编写 XDP 程序,对恶意流量执行 XDP_DROP,对合法突发流量直接在驱动层打标或放行。

    以下是精简后的 XDP C 代码(xdp_filter.c),实现对特定目标端口(如 8080)的异常小包直接 Drop:

    #include <linux/bpf.h>
    #include <linux/if_ether.h>
    #include <linux/ip.h>
    #include <linux/tcp.h>
    #include <linux/in.h>
    #include <bpf/bpf_helpers.h>
    
    SEC("xdp")
    int xdp_drop_prog(struct xdp_md *ctx) {
        // 获取数据包的起止指针
        void *data_end = (void *)(long)ctx->data_end;
        void *data     = (void *)(long)ctx->data;
    
        // 解析以太网头部
        struct ethhdr *eth = data;
        if (data + sizeof(*eth) > data_end)
            return XDP_PASS;
    
        // 仅处理 IPv4
        if (eth->h_proto != bpf_htons(ETH_P_IP))
            return XDP_PASS;
    
        // 解析 IP 头部
        struct iphdr *iph = data + sizeof(*eth);
        if ((void *)iph + sizeof(*iph) > data_end)
            return XDP_PASS;
    
        // 解析 TCP 头部
        if (iph->protocol == IPPROTO_TCP) {
            struct tcphdr *tcph = (void *)iph + sizeof(*iph);
            if ((void *)tcph + sizeof(*tcph) > data_end)
                return XDP_PASS;
    
            // 如果目标端口是 8080,直接在网卡驱动层丢弃 (模拟黑洞)
            if (tcph->dest == bpf_htons(8080)) {
                // 可在此处加入 eBPF Map 统计丢包数量
                return XDP_DROP;
            }
        }
    
        // 其他数据包正常进入协议栈
        return XDP_PASS;
    }
    
    char _license[] SEC("license") = "GPL";
    

    编译与挂载: 利用 Clang 将 C 代码编译为 BPF 字节码,并通过 iproute2 工具直接挂载到宿主机物理网卡(如 eth0)。

    # 编译 (需安装 clang 12+ 和 linux-headers)
    $ clang -O2 -g -Wall -target bpf -c xdp_filter.c -o xdp_filter.o
    
    # 以 Native 模式挂载到 eth0
    $ ip link set dev eth0 xdp obj xdp_filter.o sec xdp
    
    # 查看挂载状态
    $ ip link show eth0
    2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 xdp/id:45 qdisc mq state UP mode DEFAULT group default qlen 1000
        link/ether 00:16:3e:xx:xx:xx brd ff:ff:ff:ff:ff:ff
        prog/xdp id 45 tag 8fxxxxxx
    

    效果对比: 挂载 XDP 后,恶意流量在网卡驱动层即被截断,根本不会触发 alloc_skb,更不会进入 Netfilter。

    • ksoftirqd 的 CPU 占用率从 100% 瞬间暴降至 15% 左右。

    • dmesgnf_conntrack 报错消失。

    • 合法业务流量的 99 线延迟恢复到健康的 2ms 范围内。

    常见问题 (FAQ)

    Q1:XDP 的 Generic 模式和 Native 模式有什么性能差异? Generic 模式(xdpgeneric)是内核网络栈模拟的 XDP,此时 sk_buff 已经分配,性能提升有限,主要用于测试或不支持 XDP 的网卡驱动。Native 模式(xdp)是在网卡驱动层实现,包刚放入内存就触发,零拷贝,性能是 Generic 模式的 4-5 倍。生产环境必须确保网卡驱动(如 ixgbe, mlx5)支持 Native XDP。

    Q2:eBPF Map 并发读写时如何保证数据一致性? 在多核并发场景下,统计包量等操作直接更新普通的 Array/Hash Map 会有竞态问题。应当使用 BPF_MAP_TYPE_PERCPU_ARRAYBPF_MAP_TYPE_PERCPU_HASH。这种 Map 会为每个 CPU 核心维护独立的数据副本,更新时无锁,用户态读取时再遍历所有 CPU 的值进行汇总。

    Q3:使用 Cilium 替换 kube-proxy 后,NodePort 流量依然有延迟,如何排查? Cilium 默认并不全量开启底层 XDP 加速。如果 NodePort 流量仍有延迟,需检查 Cilium Agent 配置是否启用了 bpf-node-portkube-proxy-replacement=strict。可以通过 cilium status 查看 XDP 加速状态,并使用 cilium bpf nat list 确认底层的 eBPF NAT 表是否正常接管了 iptables 规则。如果网卡不支持 Native XDP,Cilium 会退化到 TC (Traffic Control) 层的 eBPF hook,性能会打折扣。

  • 深入 K8S CSI 存储雪崩排查:Immediate 模式引发的跨可用区调度死锁与 Finalizer 僵尸惨案

    排查过程中经常能遇到一种让人血压飙升的场景:业务侧跑来报障,说 StatefulSet 扩容卡住了,Pod 一直处于 Pending 状态。为了“快速恢复”,他们熟练地加上 --force --grace-period=0 强删了 Pod 和 PVC,结果不仅新 Pod 没起来,旧的 PV 全变成了 Terminating 僵尸态,底层云盘疯狂计费,CSI Provisioner 的队列被彻底塞爆。

    先抛出结论:在多可用区(Multi-AZ)集群中,StorageClass 绝对不能使用默认的 volumeBindingMode: Immediate 必须显式声明为 WaitForFirstConsumer。否则,CSI Provisioner 会在 PVC 创建瞬间盲目在一个随机可用区创建底层存储卷,一旦 K8s 调度器受限于节点资源或 Pod 反亲和性(Anti-Affinity),将 Pod 强行调度到另一个可用区,就会触发经典的 volume node affinity conflict 死锁。而无脑的强删操作,只会引发 Finalizer 锁死,导致控制面雪崩。

    案发现场:一次愚蠢的“调度冲突”与强删风暴

    某次核心中间件集群扩容,运维同学反馈新加的两个 Pod 挂死在 Pending 状态。 随手敲下 kubectl describe pod,看到了 K8s 存储排查中最眼熟的报错:

    Warning  FailedScheduling  3m2s  default-scheduler  0/50 nodes are available: 20 node(s) didn't match pod anti-affinity rules, 30 node(s) had volume node affinity conflict.
    

    这个报错的信息量极大。集群一共 50 个节点,其中 20 个节点因为业务配置了强反亲和性(requiredDuringSchedulingIgnoredDuringExecution)被过滤,剩下 30 个节点全部报 volume node affinity conflict

    去查一眼 PVC 和 PV 的状态,发现 PVC 已经是 Bound 状态了:

    $ kubectl get pvc data-kafka-3
    NAME           STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
    data-kafka-3   Bound    pvc-8f9a2b3c-1234-5678-90ab-cdef12345678   500Gi      RWO            ssd-sc         15m
    

    这就是典型的“盘建好了,但 Pod 过不去”。 此时,业务研发为了自救,执行了经典的毁灭三连: kubectl delete pod kafka-3 --force kubectl delete pvc data-kafka-3 --force kubectl delete pv pvc-8f9a2b3c... --force

    结果灾难发生了:PVC 和 PV 全部卡在 Terminating。CSI Controller 疯狂刷错,external-provisioner 的 Goroutine 数量飙升,API Server 持续收到无用的 Update 请求,整个存储控制面陷入瘫痪。

    核心原理解析:为什么盘和计算节点会劈腿?

    很多半吊子对 Kubernetes 存储生命周期的认知还停留在“建 PVC -> 绑 PV -> 挂载到 Pod”的线性思维上。在 CSI(Container Storage Interface)架构下,多可用区集群的存储拓扑感知(Topology Awareness)是一件极其严谨的事。

    1. Immediate 模式的致命缺陷

    查看当时的 StorageClass 配置:

    apiVersion: storage.k8s.io/v1
    kind: StorageClass
    metadata:
      name: ssd-sc
    provisioner: ebs.csi.aws.com
    parameters:
      type: gp3
    # 致命缺失:没有定义 volumeBindingMode,默认使用了 Immediate
    

    Immediate 模式下,当 StatefulSet 创建出 PVC 时,CSI external-provisioner 会立刻调用云厂商 API 创建一块 EBS 盘。由于此时它不知道最终 Pod 会被调度到哪个节点,它只能随机(或根据默认规则)选择一个可用区(假设选了 Zone A)。 盘建好后,生成的 PV 对象里会被硬性打上 nodeAffinity

    nodeAffinity:
      required:
        nodeSelectorTerms:
        - matchExpressions:
          - key: topology.ebs.csi.aws.com/zone
            operator: In
            values:
            - ap-southeast-1a  # 盘被锁死在了 Zone A
    

    2. 调度器被两头堵死

    接下来 kube-scheduler 开始为 Pod 寻找节点。

    • Pod 自身带有反亲和性,恰好 Zone A 的节点都已经部署了同一个 StatefulSet 的其他 Pod,Zone A 全部被过滤。

    • 调度器试图把 Pod 塞进 Zone B 的节点,但在评估存储卷时,发现 PV 的 nodeAffinity 是 Zone A。

    • 最终结果:计算资源要求去 Zone B,存储资源锁死在 Zone A。死锁形成,Pod 永久 Pending

    3. 强删引发的 Finalizer 僵尸机制

    K8s 极度推崇“防御性编程”,为了防止数据丢失,设计了 Finalizer 机制。

    • 当你删除正在被 Pod(哪怕是 Pending 但已绑定的 Pod)引用的 PVC 时,kubernetes.io/pvc-protection Finalizer 会拦截删除操作。

    • 当你强制干掉 PV 时,kubernetes.io/pv-protection 会死死拦住。

    • 更要命的是,底层云盘的 Delete 请求依赖 CSI 正常通信。当人为 kubectl patch 暴力清除 Finalizer 时,K8s 里的对象没了,但云厂商那边的物理云盘变成了孤儿资源(Leaked Volume),默默消耗着高昂的云预算。

    破局与自救:如何体面地收拾残局?

    不要一上来就改 etcd 或者无脑 patch finalizer,按顺序执行以下操作:

    第一步:揪出卡死的资源并妥善释放 如果 PVC/PV 已经处于 Terminating,必须先确认底层云盘是否已经删除。如果没删,手动去云控制台删盘。确认盘没用后,再通过 Patch 清理 K8s 对象:

    # 清理 PVC Finalizer
    kubectl patch pvc data-kafka-3 -p '{"metadata":{"finalizers":null}}'
    # 清理 PV Finalizer
    kubectl patch pv pvc-8f9a2b3c-1234-5678-90ab-cdef12345678 -p '{"metadata":{"finalizers":null}}'
    

    第二步:检查是否有残留的 VolumeAttachment 有时候 PV 删了,但 CSI 挂载记录还在,会导致同名节点后续挂载一直报错 VolumeInUse

    kubectl get volumeattachment | grep pvc-8f9a2b3c
    # 如果有,同样 patch 清掉
    kubectl patch volumeattachment <name> -p '{"metadata":{"finalizers":null}}'
    

    第三步:重建 StorageClass(核心防御) StorageClass 的 volumeBindingMode 是不可变字段(Immutable),只能建新的。

    apiVersion: storage.k8s.io/v1
    kind: StorageClass
    metadata:
      name: ssd-sc-topology
    provisioner: ebs.csi.aws.com
    parameters:
      type: gp3
    volumeBindingMode: WaitForFirstConsumer # 绝对核心
    allowedTopologies: # 可选:显式限制允许创建存储的可用区
    - matchLabelExpressions:
      - key: topology.ebs.csi.aws.com/zone
        values:
        - ap-southeast-1a
        - ap-southeast-1b
    

    原理揭秘:改为 WaitForFirstConsumer 后,PVC 创建时 CSI 不会立即建盘,PVC 会处于 Pending 状态。kube-scheduler 会将 Pod 调度到合适的节点(例如 Zone B),然后将选定的节点拓扑信息传递给 CSI Provisioner,CSI 再拿着 “Zone B” 的确切坐标去调用云 API 建盘。实现了“计算在哪,存储就建在哪”的精准协同。

    排查清单:K8S 存储异常速查表

    1. 查调度模式冲突:检查 StorageClass 是否为 Immediate 且集群为多可用区。只要符合这两条,立刻改成 WaitForFirstConsumer

    2. 查 PV 拓扑亲和性kubectl get pv -o yaml,查看 nodeAffinity 中声明的 Zone,是否与 Pod 最终想要调度的 Node 所在的 Zone 完全一致。

    3. 查挂载残留对象:排查 kubectl get volumeattachments 列表中是否有长时间 Attached: true 但实际 Pod 已经销毁的僵尸记录。

    4. 查 CSI 控制平面:抓取 external-provisionerexternal-attacher 容器的日志,搜索 Failed to attach volumerate exceeded 关键字,确认是否因 API 限流导致状态不一致。

    存储无小事。在基础设施即代码的今天,任何一行缺乏底层逻辑支撑的 YAML,都有可能在深夜掀起一场毁灭性的雪崩。敬畏数据,敬畏拓扑。

  • 深入 RocketMQ 顺序消息雪崩排查:无限重试引发的队列阻塞与 CommitLog PageCache 抖动惨案

    近期处理了一起由边缘业务引发的全局 RocketMQ 集群雪崩事故。故障现象非常典型:核心链路的 Producer 突然出现大量 [TIMEOUT_CLEAN_QUEUE]broker busysystem busy 报错,消息发送 P99 延迟从平时的 2ms 飙升到 3000ms 以上,最终触发限流降级,核心业务受损。

    直接抛出结论: 这不是集群容量不足的问题,而是一次典型的“业务代码低级失误 + 底层机制连锁反应”引发的惨案。某业务团队滥用 MessageListenerOrderly(顺序消费),且在 Listener 中未做全局异常捕获。一条“毒药消息”(Poison Pill)触发空指针异常,导致该 MessageQueue 无限重试并被死锁。 随着积压加剧,Consumer 触发冷读(Cold Read),疯狂从磁盘拉取历史数据,引发底层 PageCache 颠簸(Thrashing)。这直接导致 Broker 写 CommitLog 时发生严重的 Major Page Fault(缺页中断),写入线程被阻塞,集群为了自我保护触发了 BrokerFastFailure 机制,全盘拒绝了所有 Producer 的写入请求。

    解决这种问题,光靠扩容 Broker 是没用的,必须从业务消费逻辑兜底和 Broker 存储层防御两端同时下刀。

    故障现场与排查推演

    排查过程中,我们首先查阅了核心 Producer 的报错日志,满屏都是这个极其刺眼的异常:

    MQBrokerException: CODE: 2 DESC: [TIMEOUT_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: 205ms, size of queue: 876
        at org.apache.rocketmq.client.impl.MQClientAPIImpl.processSendResponse(MQClientAPIImpl.java:682)
    

    看到 TIMEOUT_CLEAN_QUEUE,有经验的架构师脑子里应该立刻条件反射出它的触发机制:RocketMQ 的 BrokerFastFailure 后台线程会定时清理发送队列,如果发现请求在队列中等待处理的时间超过 200ms(默认值),就会直接丢弃该请求并返回 broker busy。

    为什么会等待超过 200ms?说明 Broker 处理写请求的线程池卡住了。 我立即登录主 Broker 节点,用 vmstat 1iostat -xz 1 扫了一眼,Load Average 飙到了 80+,CPU 使用率并不高,但 %wa (IO Wait) 高达 60%,磁盘 util 长时间顶在 100%。

    查看 Broker 的 store.log,果不其然,刷盘耗时严重超标:

    WARN flush disk log [CommitLog] cost: 450 ms
    WARN flush commit log cost: 455 ms
    

    RocketMQ 是基于 mmap 实现的高效顺序写,CommitLog 直接写入 PageCache,通常在微秒级。这种几百毫秒的延迟,说明 PageCache 被污染了,触发了严重的缺页中断,导致同步等待磁盘 I/O

    顺藤摸瓜,查看监控大盘的 Consumer Lag 指标,发现某非核心服务的滞后量达到了数百万条。 登录该业务的 Pod 抓取线程栈(jstack),发现大量的 ConsumeMessageThread 处于阻塞状态。

    愚蠢的 Root Cause

    翻看该业务的代码,血压直接飙升。他们为了保证所谓的“严格顺序”,使用了 MessageListenerOrderly,代码如下:

    consumer.registerMessageListener(new MessageListenerOrderly() {
        @Override
        public ConsumeOrderlyStatus consumeMessage(List<MessageExt> msgs, ConsumeOrderlyContext context) {
            // 没有任何 try-catch 兜底逻辑
            String payload = new String(msgs.get(0).getBody());
            processStrictly(payload); // 这里抛出了 NullPointerException
            return ConsumeOrderlyStatus.SUCCESS;
        }
    });
    

    为什么这在普通消费中不是致命问题,但在顺序消费中却是灾难?

    在普通并发消费(MessageListenerConcurrently)中,如果抛出异常或返回 RECONSUME_LATER,RocketMQ 会将消息发往 %RETRY%Group 的重试队列,并带有阶梯重试间隔,重试 16 次后进入死信队列(DLQ),当前队列会继续消费下一条消息。

    但在顺序消费(MessageListenerOrderly)中,底层逻辑是严格保序的。为了防止乱序,如果 Listener 抛出异常或返回 SUSPEND_CURRENT_QUEUE_A_MOMENT,RocketMQ 会认为这条消息没处理完,绝对不会跳过它。它会将当前 MessageQueue 挂起,默认等待 1 秒后,再次投递这条一模一样的消息,陷入死循环(无限重试)。

    在这个场景下:

    1. 队列被锁死:毒药消息无限重试,后续几万条正常消息全部被阻塞在该队列后面。

    2. K8S 重启风暴:业务方发现积压,习惯性地去删 Pod 重启。Pod 的频繁上下线导致 Consumer Group 疯狂触发 Rebalance。在顺序消费模式下,Rebalance 需要向 Broker 申请分布式锁,频繁的锁争抢进一步增加了 Broker 的 CPU 压力。

    3. 冷读触发雪崩:因为消息积压时间太长,这些数据早就从 OS PageCache 中淘汰。当积压的队列试图拉取消息时,触发了大量的磁盘随机读取(冷读)。这些大量的冷读数据挤占了宝贵的 PageCache,导致 CommitLog 写入时找不到空闲页,触发 Major Fault 落盘,最终阻塞了全局的发送请求。

    一段没有写 try-catch 的几十行边缘代码,直接干翻了整个大集群,这就是缺乏防御性编程意识的代价。

    修复与底层防御加固

    对于这种问题,必须实施双端改造。

    1. 业务侧:顺序消费的防御性兜底

    严禁在 MessageListenerOrderly 中裸奔。必须全局捕获异常,并设定自定义的最大重试次数(利用 Message 的 ReconsumeTimes 属性)。当重试超过阈值时,手工将其告警并写入本地死信表或旁路处理,强制返回 SUCCESS 让位给后续消息。

    public ConsumeOrderlyStatus consumeMessage(List<MessageExt> msgs, ConsumeOrderlyContext context) {
        MessageExt msg = msgs.get(0);
        try {
            process(msg);
            return ConsumeOrderlyStatus.SUCCESS;
        } catch (Exception e) {
            log.error("Consume orderly error, msgId: {}", msg.getMsgId(), e);
            // 防御性编程:判断重试次数,避免无限阻塞队列
            if (msg.getReconsumeTimes() >= 3) {
                moveToCustomDLQ(msg); // 降级处理
                return ConsumeOrderlyStatus.SUCCESS; // 强行放行
            }
            return ConsumeOrderlyStatus.SUSPEND_CURRENT_QUEUE_A_MOMENT;
        }
    }
    

    2. Broker 侧:隔离冷热读写,保护 PageCache

    即使业务再拉胯,基础设施也必须坚挺。调整 OS 和 Broker 配置以提升抗雪崩能力。

    • OS 层内核参数调优: 调整 vm.extra_free_kbytesvm.min_free_kbytes,强制内核保留一定的空闲内存用于应对突发的 IO 请求分配,避免 Page Reclaim 引发阻塞。 bash sysctl -w vm.zone_reclaim_mode=0 sysctl -w vm.swappiness=1

    • Broker 存储层调优: 强制开启预热和 mmap 内存锁定。 “`properties # 强制将 mmap 映射的内存锁定在物理内存中,避免被 Swap 出去 (mlockall) warmMapedFileEnable=true

      开启异步刷盘下额外的堆外内存池。

      写请求先写入 DirectByteBuffer,再异步 commit 到 PageCache。

      极大地缓冲了 PageCache 抖动对 Producer 写入请求的影响。

      transientStorePoolEnable=true “`

    • 开启冷热分离(RocketMQ 5.x 推荐,或 4.x SSD+HDD 架构): 如果磁盘条件允许,将 CommitLog 和 ConsumeQueue 部署在高性能 NVMe 上,或者利用 RocketMQ 的 Cold Data 机制,将长期积压的数据下沉,确保热点读取完全命中内存。

    排查清单 (同类问题速查)

    1. [TIMEOUT_CLEAN_QUEUE] broker busy 报错:意味着 Broker 处理写入请求的耗时超过 200ms。不要急于怀疑网络,第一优先级检查 Broker 磁盘 %wastore.log 中的 Flush Cost,大概率是 PageCache 抖动导致 mmap 写入缺页阻塞。

    2. 顺序消费死锁陷阱MessageListenerOrderly 不受最大重试 16 次的限制。Listener 抛出未捕获异常或返回 SUSPEND_CURRENT_QUEUE_A_MOMENT 会导致该队列无限重试。必须由业务层判断 ReconsumeTimes 进行主动放行。

    3. 冷读风暴污染内存:Consumer 拉取长时间积压的历史消息(冷读),会将磁盘文件重新加载到 PageCache,直接挤占 CommitLog 的内存页空间。可通过启用 transientStorePoolEnable=true 彻底解耦业务冷读对热点发送写入的直接冲击。

    4. K8S Rebalance 抖动:顺序消费依赖向 Broker 侧申请全局锁。Pod 的频繁起停会导致 Consumer 假死,引发长时间的 Rebalance 等待(锁续期与超时机制),表现为队列有堆积但没有消费速率。

  • 深入 Apache Pulsar 雪崩排查:大负载滥用引发的 Bookie OOM 与 Zookeeper Ledger 元数据风暴

    某次核心业务线的 Pulsar 集群突发雪崩,生产端 99 线写入延迟从 5ms 瞬间飙升到 5000ms+,紧接着出现大面积 ProducerFencedExceptionTimeoutException。先抛结论:这又是一起典型的“把 MQ 当网盘用”引发的血案。业务方将单条动辄 5MB 到 10MB 的非结构化 JSON 直接怼进 Pulsar,且未开启消息分块(Chunking)。大负载瞬间打爆了 Bookie 的 Direct Memory 导致节点 OOM 宕机;Bookie 下线后触发了 Broker 的 Ledger Ensemble 切换风暴,海量的新 Ledger 创建请求最终将底层的 ZooKeeper 彻底打瘫,集群随之全局假死。

    如果你也遇到了 Pulsar 写不进去,但 Broker 负载看着很低的情况,先去查底层的 BookKeeper 和 Zookeeper,Pulsar 存储计算分离的本质决定了:Broker 只是无状态的网关,真正的血肉之躯在下层。

    案发现场与指标崩盘

    排查初期,监控面板上的数据极其诡异:

    1. Broker 层:CPU 负载平稳,甚至有点闲置,但 pulsar_storage_write_latency_le 指标直接断崖式破表。

    2. Bookie 层:集群中某一台 Bookie 节点离奇掉线,剩余存活节点的 bookkeeper_journal_JOURNAL_SYNC_latency_99 从微秒级涨到了惊人的 3-5 秒。

    3. Zookeeper 层Outstanding Requests 飙升至数万,znode_count 在短短十分钟内激增了几十万。

    登入那台掉线的 Bookie 节点,dmesg -T 没有看到 OS OOM Killer 的痕迹,但翻看 Bookie 的 bookkeeper.log,满屏的猩红:

    ERROR org.apache.bookkeeper.bookie.Bookie - Error on writing ledger
    java.lang.OutOfMemoryError: Direct buffer memory
        at java.nio.Bits.reserveMemory(Bits.java:694)
        at java.nio.DirectByteBuffer.<init>(DirectByteBuffer.java:123)
        at io.netty.buffer.PoolArena$DirectArena.allocateDirect(PoolArena.java:754)
        at io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331)
    ...
    

    很明显,Bookie 进程因为 Netty 直接内存(Direct Memory)耗尽挂了。

    底层原理解析:大消息为何引发全局雪崩?

    在 Pulsar 的架构中,消息持久化由 BookKeeper 负责。为了追求高吞吐,Bookie 高度依赖 Netty 的池化直接内存来处理读写 IO,避免 JVM 堆内存的垃圾回收停顿(GC Pauses)。

    第一米多米诺骨牌:Direct Memory 爆炸 业务侧高并发写入 5MB+ 的大消息时,Bookie 的 Write Cache(由 dbStorage_writeCacheMaxSizeMb 控制,默认占用分配直接内存的 25%)被迅速填满。同时,由于单条 Payload 过大,Netty 在分配和回收 Direct Buffer 时出现碎片化和频繁的扩容操作,最终直接顶破了 MaxDirectMemorySize 的上限。

    第二米多米诺骨牌:Ledger 切换风暴 Pulsar 的写高可用依赖于 Bookie 的 Ensemble 机制。假设配置了 E=3, W=3, A=2(使用3个Bookie节点,写3份,2份Ack即成功)。当上述那台 Bookie OOM 宕机后,Broker 在等待 Ack 时发生超时,此时 Broker 会果断执行防御性动作:

    1. 将当前正在写入的 Ledger 标记为关闭(Fenced)。

    2. 从存活的 Bookie 列表中挑选新的节点,组成新的 Ensemble,并在 Zookeeper 中创建一个全新的 Ledger。

    灾难点在于:业务侧的重试风暴没有停止,大消息还在疯狂涌入。新 Ledger 刚创建,新的 Bookie 又被大消息塞得 IO 夯死或网络延迟,Broker 再次超时,再次 Fence Ledger,再次请求 ZK 创建新 Ledger。

    第三米多米诺骨牌:Zookeeper 瘫痪pulsar-admin topics stats-internal 输出中,平常一个 Topic 只有寥寥几个 Ledger,此时却看到了几千个碎片化的 Ledger ID:

    "ledgers": [
        {"ledgerId": 104523, "entries": 5, "size": 25600000},
        {"ledgerId": 104524, "entries": 2, "size": 10240000},
        {"ledgerId": 104525, "entries": 1, "size": 5120000}
    ]
    

    每一个 Ledger 的创建、状态变更,都需要强一致性地写入 Zookeeper。Zookeeper 本身就不擅长处理高频写,在这场疯狂的切换风暴中,ZK 的事务日志盘被彻底压爆,连接队列堆满。最终,Broker 抛出 MetadataStoreException: KeeperErrorCode = ConnectionLoss,全员罢工。

    与此同时,BookKeeper 内部的 AutoRecovery 检测到副本数不足,开始后台搬运数据,这让仅存的几台 Bookie 的磁盘 IOPS 和带宽更是雪上加霜,Journal 盘彻底失去响应(Sync 卡死)。

    现场恢复与架构调整

    要让这套系统活过来,重启是没用的,必须阻断恶性循环。

    1. 阻断生产洪峰:临时在 Broker 的 broker.conf 中动态下调 maxMessageSize(比如降回 1MB),硬性拦截业务侧的大负载写入,强制生产端抛错。

    2. 扩容与隔离:调大 Zookeeper 的 JVM 堆内存,增加 maxClientCnxns;重启 OOM 的 Bookie,并在启动参数 bkenv.sh 中将其 XX:MaxDirectMemorySize 翻倍。

    3. 禁用自动恢复:紧急执行 bookkeeper shell autorecovery -disable,防止数据重建任务抢占正常读写的 IO 资源,等凌晨低峰期再开启。

    长期避坑建议与加固方案:

    不要指望业务开发能完全遵守规范,运维和架构的底线就是通过配置和架构隔离来兜底。

    • 强制启用生产端 Chunking 或外置对象存储:对于大负载,如果非要用 MQ,生产端必须配置 ProducerBuilder.enableChunking(true),将大消息切片后发送,消费端再重组;或者将原始负载丢入 S3/MinIO,Pulsar 里只流转 Object URL。

    • 硬件层级冷热分离:BookKeeper 必须严格区分 Journal 盘和 Ledger 盘。Journal 盘用于顺序写 WAL,必须上 NVMe SSD;Ledger 盘用于批量落盘和随机读,可以使用大容量 SATA SSD 甚至 HDD。如果混用在一块盘上,fsync 延迟必然被大消息拉爆。

    • 精细化 Bookie 内存与缓存控制: 在 bookkeeper.conf 中,明确指定 DbLedgerStorage 的内存分配比例,防止 Direct Memory 失控: ini # 读缓存与写缓存的分配比例(默认 25/25,推荐读多时调高读,写多调高写) dbStorage_readAheadCacheMaxSizeMb=... dbStorage_writeCacheMaxSizeMb=... # 控制直接内存用于 Netty 接收缓存的比例 allocatorPoolingPolicy=PooledDirect

    排查清单:Pulsar 写入雪崩同类问题速查

    1. 查看 Broker 底层延迟指标:重点监控 bookkeeper_journal_JOURNAL_SYNC_latency_99。如果该指标突破 50ms 甚至达到秒级,说明 Bookie 磁盘 IO 已成瓶颈,检查是否触发了 AutoRecovery 或存在大消息滥用。

    2. 排查 Zookeeper 压力:如果 Broker 日志频繁出现 ConnectionLossSessionExpired,检查 ZK 的 Outstanding Requests 指标。大概率是 Broker 频繁更换 Ledger 导致的元数据风暴。

    3. 检查 Topic 碎片化:使用 pulsar-admin topics stats-internal 查看 ledgers 列表。如果单个 Topic 存在大量仅包含几个 Entry 的碎片化 Ledger,说明 Bookie 状态极不稳定,触发了频繁的 Ensemble 容错切换。

    4. Bookie OOM 溯源:检查 dmesg 排除系统级 OOM 后,直接看 Bookie 进程日志搜索 OutOfMemoryError。若为堆外内存溢出,需结合 bkenv.sh 中的 MaxDirectMemorySize 以及业务消息 Size 综合评估。

  • 深入 K8S Operator 内存 OOM 排查:缺失 FieldIndexer 引发的 Informer Cache 爆炸与 Finalizer 死锁实战

    controller-runtime (基于 v0.15.0) 的 Operator 开发中,最隐蔽的 OOM 与性能杀手往往源于开发者在 Reconcile 循环中滥用全局 client.List 进行内存级过滤,而非向 Manager 注册 FieldIndexer。这种反模式会强制 Informer 监听并缓存集群全量资源,直接撑爆本地 ThreadSafeStore。当 Operator 因 OOM 陷入 CrashLoopBackOff 时,又会产生连锁反应:拦截了删除事件的 Finalizer 无法执行清理逻辑,导致海量 CR(Custom Resource)和关联 Namespace 陷入永久 Terminating 死锁。解决此问题的核心在于:利用 FieldIndexer 下推查询条件到索引层,并严格遵循安全的 Finalizer 状态机编排。

    故障现场:Operator 频繁 OOM 与僵尸 CR 风暴

    排查某次生产环境问题时,监控系统发出严重告警:

    1. Operator Pod OOMKilled:内存使用量频繁突破 2Gi 的 Limit 阈值。

    2. Reconcile 延迟剧增:P99 Reconcile 时延从毫秒级劣化至 15 秒以上。

    3. 僵尸对象堆积:大量自定义资源 DataJob 及其所在的 Namespace 处于 Terminating 状态无法回收,集群 API Server 的 Watch 流连接数激增。

    拉取 Operator 的 Go pprof heap dump 进行现场剖析:

    go tool pprof -top http://operator-svc:8081/debug/pprof/heap
    

    输出结果极为刺眼,超过 85% 的内存消耗集中在 k8s.io/client-go/tools/cache.(*threadSafeMap).Updatek8s.io/apimachinery/pkg/apis/meta/v1/unstructured。这说明本地 Informer Cache 中囤积了极其庞大的对象数据。

    审查业务侧代码,在 DataJob 的 Reconcile 主逻辑中发现了这坨致命的“全表扫描”代码:

    // 致命的反模式代码
    podList := &corev1.PodList{}
    // 直接 List 全局 Pod,未指定 Namespace 或 Label/Field Selector
    if err := r.Client.List(ctx, podList); err != nil {
        return ctrl.Result{}, err
    }
    
    var ownedPods []corev1.Pod
    for _, pod := range podList.Items {
        // 在内存中暴力遍历过滤 owner
        for _, owner := range pod.OwnerReferences {
            if owner.Name == dataJob.Name {
                ownedPods = append(ownedPods, pod)
            }
        }
    }
    

    为什么滥用 client.List 会导致 Informer Cache 撑爆?

    在回答这个问题之前,必须理解 controller-runtime 的读写分离哲学与 Informer 底层运行机制。

    默认情况下,mgr.GetClient() 注入给 Reconciler 的 Client 是一个 Split Client(读写分离客户端)。

    • 写操作(Create/Update/Delete/Patch):直接透传给 APIServer。

    • 读操作(Get/List):默认全部被拦截并路由到本地 Informer Cache(CacheReader)。

    当你调用 r.Client.List(ctx, podList) 时,底层发生了什么?

    1. controller-runtime 发现你要 List Pod 资源。

    2. 如果此前没有针对 Pod 初始化过 Informer,Manager 会动态启动一个全量 Pod Informer。

    3. 该 Informer 通过 Reflector 向 APIServer 发起 ListAndWatch 请求。

    4. APIServer 将集群中所有的 Pod(假设有 50,000 个)推送到本地。

    5. DeltaFIFO 接收数据,经过处理后全量灌入 ThreadSafeStore(基于 Go map 实现的内存缓存)。

    灾难的根源:虽然缓存避免了频繁请求 APIServer,但 Pod 是一个极其臃肿的结构体(包含大段的 Annotations、Env、Volume 挂载信息)。50,000 个 Pod 在 Go 内存中反序列化后,轻易就能吃掉 1GB~2GB 内存。为了过滤区区几个属于特定 CR 的 Pod,把全集群的 Pod 搬进内存,典型的“为了吃一小口肉,把整个养猪场买下来”。

    实战解法:注入 FieldIndexer 下推索引

    要消除这种全表扫描引发的 OOM,必须利用 FieldIndexer。它的原理是在 Informer 同步数据到 ThreadSafeStore 时,根据你定义的提取函数,提前构建好倒排索引。

    1. 注册索引 (SetupWithManager)

    在 Operator 启动时,将 metadata.ownerReferences 注册为可检索的字段索引:

    const jobOwnerKey = ".metadata.controller"
    
    func (r *DataJobReconciler) SetupWithManager(mgr ctrl.Manager) error {
        // 建立基于 OwnerReference 的倒排索引
        if err := mgr.GetFieldIndexer().IndexField(context.Background(), &corev1.Pod{}, jobOwnerKey, func(rawObj client.Object) []string {
            pod := rawObj.(*corev1.Pod)
            owner := metav1.GetControllerOf(pod)
            if owner == nil {
                return nil
            }
            // 确保 Owner 是当前 GVK
            if owner.APIVersion == apiGVStr && owner.Kind == "DataJob" {
                return []string{owner.Name}
            }
            return nil
        }); err != nil {
            return err
        }
    
        return ctrl.NewControllerManagedBy(mgr).
            For(&batchv1.DataJob{}).
            Owns(&corev1.Pod{}).
            Complete(r)
    }
    

    2. 重构 Reconcile 逻辑

    将内存遍历替换为按字段匹配(client.MatchingFields):

    podList := &corev1.PodList{}
    // 此时只会从 Cache 的索引桶中精准捞取对应 name 的对象
    err := r.List(ctx, podList, client.InNamespace(req.Namespace), client.MatchingFields{jobOwnerKey: dataJob.Name})
    if err != nil {
        return ctrl.Result{}, err
    }
    

    通过这种方式,Informer 依然会在后台维护缓存,但由于限定了 Namespace(通过 RBAC 和 Manager 启动参数 Cache 限制监听范围),以及规避了无效的大切片拷贝操作,Operator 的内存消耗被严格压制在百兆级别。

    打破 Finalizer 级联死锁

    回到故障现场的第三个问题:为什么大量资源卡在 Terminating? 原因在于 Operator 由于上述 OOM 问题不断 Crash,导致资源删除事件无法被正常消费。而这些 CR 注入了 Finalizer。

    在 K8S 中,只要对象的 metadata.finalizers 列表不为空,APIServer 就只会将对象的 DeletionTimestamp 赋值,而不会真正从 Etcd 中物理删除该记录。若 Operator 宕机,Finalizer 迟迟不被移除,资源就会僵死。

    防御性 Finalizer 编排范式

    处理 Finalizer 必须极其谨慎,严禁在网络抖动或外部 API 调用失败时强行移除 Finalizer,否则会导致依赖的云端或集群外部资源泄露。标准的安全状态机如下:

    const dataJobFinalizer = "batch.example.com/finalizer"
    
    func (r *DataJobReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
        dataJob := &batchv1.DataJob{}
        if err := r.Get(ctx, req.NamespacedName, dataJob); err != nil {
            return ctrl.Result{}, client.IgnoreNotFound(err)
        }
    
        // 检查资源是否正在被删除
        if dataJob.ObjectMeta.DeletionTimestamp.IsZero() {
            // 未被删除,检查是否需要注入 Finalizer
            if !controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
                controllerutil.AddFinalizer(dataJob, dataJobFinalizer)
                if err := r.Update(ctx, dataJob); err != nil {
                    return ctrl.Result{}, err
                }
            }
        } else {
            // 资源处于 Terminating 状态,执行清理逻辑
            if controllerutil.ContainsFinalizer(dataJob, dataJobFinalizer) {
                // 1. 执行自定义清理逻辑 (必须幂等,并处理超时/失败)
                if err := r.cleanUpExternalResources(dataJob); err != nil {
                    // 清理失败,返回 err 触发重试,绝对不能移除 Finalizer
                    return ctrl.Result{}, err
                }
    
                // 2. 清理成功,安全移除 Finalizer
                controllerutil.RemoveFinalizer(dataJob, dataJobFinalizer)
                if err := r.Update(ctx, dataJob); err != nil {
                    return ctrl.Result{}, err
                }
            }
            // 允许终止 Reconcile
            return ctrl.Result{}, nil
        }
    
        // 正常的业务 Reconcile 逻辑...
        return ctrl.Result{}, nil
    }
    

    避坑指南:在 Update Finalizer 状态时,极易遭遇 Conflict (HTTP 409) 错误。这是因为在处理清理逻辑的几秒钟内,对象的 ResourceVersion 可能已经被其他 Controller 改变。controller-runtime 会自动在下一个 Reconcile 循环重试,因此你的 cleanUpExternalResources 必须是严格幂等的

    常见问题 (Q&A)

    Q1:什么时候应该绕过 Informer Cache 直接读取 APIServer? 极少数情况。当你需要强一致性读取(例如处理极度敏感的锁机制或鉴权),不能容忍毫秒级的 Cache 同步延迟时。在 controller-runtime 中,可以通过注入 client.Reader 并使用 client.NewAPIReader(mgr.GetClient()) 获取直连 APIServer 的对象。但严禁在频繁的 Reconcile 循环中对全量列表使用直读,否则立刻引发 APIServer QPS 告警。

    Q2:如果我只需要获取资源的 metadata,不想缓存庞大的 spec/status 怎么办? 在较新的 controller-runtime 中(配合 Kubernetes 1.27+),你可以启用 MetadataOnly Client。它基于 APIServer 的 PartialObjectMetadata API,Informer 在本地仅缓存对象的 ObjectMeta 结构体,这能将数百 MB 的 Cache OOM 风险直接降维到几 MB。

    Q3:为什么我加上了 FieldIndexer,Operator 启动时还是对 APIServer 造成了 Watch 风暴? 检查你启动 Manager 时的 Options.Cache 配置。默认行为是全局监控(Watch All Namespaces)。如果你是一个 Namespace-scoped 的 Operator,务必在 Cache 配置中指定 DefaultNamespaces 列表。否则,每个 GVK 的 Informer 启动时依然会触发集群全量 Resync。

  • 深入 MySQL InnoDB 高并发雪崩排查:Redo Log 刷盘阻塞与 Buffer Pool 抖动引发的间隙锁死锁惨案

    高并发写入场景下,MySQL TPS 陡降甚至雪崩,根因通常是“底层 I/O 阻塞放大 + 锁冲突”。排查发现,Redo Log 空间不足引发同步刷盘等待,Buffer Pool 脏页回收跟不上导致突发 I/O 抖动。加之业务代码在长事务中执行并发插入,触发 InnoDB 间隙锁(Gap Lock)与插入意向锁的死锁风暴,最终压垮实例。核心解法:重构插入逻辑绕过间隙锁,调优 innodb_redo_log_capacityinnodb_io_capacity,彻底打通内核级 I/O 瓶颈。

    故障现场:一场突如其来的写入停顿

    近期在处理某核心订单系统的高并发大促压测时,数据库发生严重雪崩。监控面板上呈现出典型的“心电图式”崩溃:

    1. TPS 与 QPS 齐降:原本稳定在 6000 的 TPS,周期性跌至 100 以下,随后又缓慢爬升。

    2. 系统负载飙升:MySQL 节点 Load Average 飙破 150,CPU 的 %iowait 持续在 40% 以上震荡。

    3. 海量慢查询与死锁报错:应用侧大量爆出 Deadlock found when trying to get lock; try restarting transaction,且 99 线延迟从 20ms 飙升至 5s。

    登机直奔 MySQL 终端,执行 SHOW ENGINE INNODB STATUS\G,输出中的关键报错日志立刻暴露了底层的挣扎:

    -- 脏页刷盘告警
    InnoDB: page_cleaner: 1000ms intended loop took 6540ms. The settings might not be optimal. (flushed=25000 and evicted=0, during the time.)
    
    -- 日志等待状态
    Log sequence number 14589934251
    Log flushed up to   14589801020
    Pages flushed up to 14581100000
    Last checkpoint at  14580010000
    

    计算一下 Log sequence number(当前 LSN)和 Last checkpoint at(最后检查点 LSN)的差值,已经逼近了当时配置的 Redo Log 总容量。数据库实际上处于一种“憋死”的状态。

    为什么 TPS 陡增时 Redo Log 会成为整个实例的阿喀琉斯之踵?

    要搞懂这个问题,必须从 InnoDB 的 WAL(Write-Ahead Logging)机制说起。任何修改数据的操作,都会先写 Redo Log,再修改 Buffer Pool 中的数据页(脏页)。

    但在极端高并发下,Redo Log 的产生速度远超后台 Page Cleaner 线程将脏页刷入磁盘的速度。Redo Log 是循环使用的(Ring Buffer),如果脏页还没刷盘,对应的 Redo Log 空间就不能被覆盖。

    当未 Checkpoint 的 Redo Log 数据量达到了配置容量的 75%(异步刷盘水位)甚至 90%(同步刷盘水位)时,InnoDB 会触发 Sync Flush 机制。 此时,所有的用户更新线程(DML操作)将被强制挂起,由用户线程去抢占 log_sys->mutex 锁并主动触发脏页刷盘,以推进 Checkpoint LSN 腾出 Redo Log 空间。

    这就是为什么监控上的 TPS 会出现断崖式下跌。在 MySQL 终端使用以下命令可以抓到现场:

    -- 查看 Redo Log 等待次数,如果在高频增加,说明 Redo Log 容量太小
    SHOW GLOBAL STATUS LIKE 'Innodb_log_waits';
    

    Buffer Pool 脏页风暴与 I/O 抖动原理

    Redo Log 告急只是表象,背后的帮凶往往是 Buffer Pool 刷盘策略与底层存储硬件的不匹配。

    排查过程中检查了该实例(MySQL 8.0.32,底层采用企业级 NVMe SSD)的 I/O 配置:

    innodb_io_capacity = 200
    innodb_io_capacity_max = 2000
    

    这是极其保守的默认值。NVMe SSD 的随机写 IOPS 随随便便就能上 50,000。 因为 innodb_io_capacity 设置过低,Page Cleaner 线程在平常认为“我只需每秒刷 200 个脏页就够了”,导致 Buffer Pool 里的脏页越积越多。当 Redo Log 空间告急触发高水位强制刷盘时,InnoDB 突然要求一瞬间刷入数万个脏页,底层 I/O 瞬间飙高,引发系统抖动。

    同时,这还会导致另一个致命问题:Free buffers 耗尽。

    -- 查看请求不到空闲页被迫等待的次数
    SHOW GLOBAL STATUS LIKE 'Innodb_buffer_pool_wait_free';
    

    当一个查询需要加载新页到 Buffer Pool,但找不到空闲页,且 LRU 尾部的都是脏页时,查询线程就必须先等待脏页同步刷盘,导致读请求也被阻塞。读写双杀。

    间隙锁死锁:压垮骆驼的最后一根稻草

    I/O 阻塞导致了事务执行时间被动拉长。原本 10ms 能提交的事务,现在要拖到 1s 甚至 3s。事务生命周期的拉长,成倍放大了锁冲突的概率。这直接引爆了业务代码中的暗雷:Gap Lock(间隙锁)死锁

    查看 SHOW ENGINE INNODB STATUS 中的 LATEST DETECTED DEADLOCK,发现大量类似以下的死锁日志:

    *** (1) TRANSACTION:
    TRANSACTION 987654321, ACTIVE 2 sec inserting
    mysql tables in use 1, locked 1
    LOCK WAIT 3 lock struct(s), heap size 1136, 2 row lock(s)
    MySQL thread id 1234, OS thread handle 1403213456, query id 456789 update
    INSERT INTO order_record (user_id, status) VALUES (1001, 'INIT')
    
    *** (1) WAITING FOR THIS LOCK TO BE GRANTED:
    RECORD LOCKS space id 100 page no 200 n bits 72 index idx_user of table `db`.`order_record` trx id 987654321 lock_mode X locks gap before rec insert intention waiting
    
    *** (2) TRANSACTION:
    TRANSACTION 987654322, ACTIVE 2 sec inserting
    ...
    *** (2) HOLDS THE LOCK(S):
    RECORD LOCKS space id 100 page no 200 n bits 72 index idx_user of table `db`.`order_record` trx id 987654322 lock_mode X locks gap before rec
    
    *** (2) WAITING FOR THIS LOCK TO BE GRANTED:
    RECORD LOCKS space id 100 page no 200 n bits 72 index idx_user of table `db`.`order_record` trx id 987654322 lock_mode X locks gap before rec insert intention waiting
    

    底层原理剖析: 在默认的 RR(Repeatable Read)隔离级别下,业务逻辑是经典的“先查后写”:

    1. SELECT * FROM order_record WHERE user_id = 1001 FOR UPDATE; (发现记录不存在)

    2. INSERT INTO order_record (user_id, status) VALUES (1001, 'INIT');

    两个并发事务 A 和 B 同时执行步骤 1:

    • 因为记录不存在,InnoDB 为了防止幻读,会沿着索引找到第一条大于 1001 的记录,并在它前面的间隙加上 Gap Lock(间隙锁)

    • 重点:Gap Lock 相互之间是兼容的! 事务 A 和 B 都能成功获取这个 Gap Lock。

    接着他们同时执行步骤 2(INSERT):

    • 插入操作需要获取 Insert Intention Lock(插入意向锁)

    • 重点:插入意向锁被 Gap Lock 排斥!

    • 事务 A 尝试获取插入意向锁,被事务 B 拥有的 Gap Lock 阻塞。

    • 事务 B 尝试获取插入意向锁,被事务 A 拥有的 Gap Lock 阻塞。

    • 死锁形成! 数据库只能挑选一个代价较小的事务进行 Rollback。在高并发 + I/O 阻塞拉长事务的场景下,这个死锁被无限放大,最终压垮业务。

    核心调优与防御性落地策略

    排查清楚后,我们的破局思路非常清晰:解放 I/O 瓶颈,降低锁冲突,缩短事务时间。

    1. 数据库内核参数调优 (MySQL 8.0.32 环境)

    直接修改 mysqld.cnf,对核心参数进行手术刀式调整:

    # 1. 解除 Redo Log 空间瓶颈
    # MySQL 8.0.30+ 引入了 innodb_redo_log_capacity 动态替代之前的 file_size 算法
    # 依据经验,高并发写入库至少配置 4G-8G,避免频繁 Sync Flush
    innodb_redo_log_capacity = 8589934592
    
    # 2. 解除 Buffer Pool 刷盘限制 (匹配 NVMe SSD 性能)
    innodb_io_capacity = 10000
    innodb_io_capacity_max = 25000
    
    # 3. 优化 Page Cleaner 线程,防止单线程刷盘瓶颈
    innodb_page_cleaners = 8
    innodb_buffer_pool_instances = 8
    
    # 4. 降低死锁探测开销 (高并发极速短事务场景下,死锁探测自身消耗极大CPU)
    # 注意:关闭前提是业务有完善的重试机制,并依赖 innodb_lock_wait_timeout 熔断
    # innodb_deadlock_detect = OFF
    innodb_lock_wait_timeout = 5
    

    注:修改配置后,可通过 SET GLOBAL 动态生效部分参数,但 innodb_buffer_pool_instances 需重启实例。

    2. 业务侧锁机制重构

    在确认业务其实不依赖 RR 级别下的间隙锁防幻读特性后(大部分电商/金融系统依赖分布式锁或唯一索引保证幂等),我们将核心交易库的隔离级别降级为 RC(Read Committed)

    # 禁用绝大部分的 Gap Lock,大幅降低并发死锁概率
    transaction_isolation = READ-COMMITTED
    

    在 RC 级别下,即使 SELECT ... FOR UPDATE 查不到数据,也不会加 Gap Lock,后续的并发 INSERT 就算主键冲突,也只会退化为 Unique Key 冲突报错,而不是灾难性的死锁回滚。

    常见问题 (FAQ)

    Q: 遇到 IO 瓶颈,直接把 innodb_flush_log_at_trx_commit 改成 2 可以解决问题吗?

    改为 2 确实能极大提升 TPS,因为它把 Redo Log 刷盘的动作交给了操作系统的 Page Cache(每秒 fsync 一次)。但在金融/订单等严苛场景下,主机一旦宕机/掉电,会丢失最多 1 秒的已提交事务数据。它能掩盖问题,但不能解决脏页积压引发的突发抖动,且违背了核心系统的持久性(Durability)要求。建议优先调优 Redo 容量和 I/O Capacity。

    Q: 如何精准监控 Buffer Pool 的内存污染与命中率不足?

    不要看粗略的 Hit Rate 比例,直接看内核指标:计算 1 - (Innodb_buffer_pool_reads / Innodb_buffer_pool_read_requests)。如果该值在业务高峰期跌破 98%,说明发生大量物理读。此时需排查是否存在无索引的大表扫描,或者是全表扫批处理任务冲刷了 LRU 链表热端数据。

    Q: 为什么把隔离级别改成了 READ COMMITTED,还会发生间隙锁死锁?

    很多研发以为 RC 完全没有 Gap Lock,这是误区。在 RC 下,如果是进行唯一索引(Unique Key)的批量插入或冲突检测(如 INSERT ... ON DUPLICATE KEY UPDATE,为了保证主键的唯一性约束,InnoDB 底层依然会隐式使用记录锁和部分间隙锁机制。碰到此类问题,必须通过分批提交、或将并发插入逻辑前置为分布式锁排队来解决。

  • 深入 TiDB 大事务雪崩排查:无脑 DELETE 引发的 Percolator 锁风暴与 TiDB 节点 OOM 惨案

    近期处理了一起极为惨烈的分布式数据库生产事故。核心业务集群(TiDB v6.1)的 P99 延迟在两分钟内从 20ms 直接飙升到 30s,随后多个 TiDB Server 节点接连触发 OOM 被内核直接 Kill,集群 QPS 跌至个位数,几乎处于瘫痪状态。

    排查到底,罪魁祸首是一条没有任何 LIMIT 限制、涉及 8000 万行数据的历史日志清理 SQL(DELETE FROM action_log WHERE create_time < '2023-01-01')。 结论先行:在基于 Percolator 模型的分布式数据库中,将单机关系型数据库的“大事务”思维直接照搬是自杀行为。TiDB 在两阶段提交(2PC)的 Prewrite 阶段需要将所有 Mutate 数据缓存在 TiDB Server 内存中,同时向 TiKV 写入海量 Lock 记录。这不仅会瞬间击穿计算节点的内存配额,还会引发大面积的锁冲突与 ResolveLock 风暴,导致整个集群的 Raft Store 与 Coprocessor 线程池耗尽。

    解决大批量数据修改,必须使用非事务 DML(BATCH ON)或按主键范围切分的批处理脚本。把分布式 DB 当无底洞垃圾桶,它就会把你的业务一起埋了。

    现场还原:从延迟突刺到死亡宣告

    监控大盘上的异动非常典型,呈现出教科书般的“雪崩”曲线:

    1. TiDB 节点内存垂直起飞:某一个 TiDB 节点的内存使用率在 60 秒内从 15% 飙升至 95%。

    2. 锁指标爆炸:TiDB Dashboard 中的 KV Backoff OPSLock Resolve OPS 激增 1000 倍。

    3. gRPC 阻塞:TiKV 的 gRPC message duration P99 飙升至 15s 以上。

    4. 死亡宣告:系统监控捕获到内核级斩首行动: text kernel: [123456.789] Out of memory: Kill process 2333 (tidb-server) score 850 or sacrifice child kernel: [123456.790] Killed process 2333 (tidb-server) total-vm:41943040kB, anon-rss:33554432kB, file-rss:0kB

    查看存活 TiDB 节点的 tidb.log,满屏的 2PC 提交失败与锁冲突报错:

    [WARN] [2pc.go:1234] ["commit failed"] [conn=889922] [error="[kv:9007]Write conflict, txnStartTS=441234567890123456 is stale"]
    [WARN] [backoff.go:234] ["txnLockNotFound"] [conn=889922] [caller="resolveLock"] 
    

    核心原理解析:为什么一条 DELETE 能干趴整个集群?

    很多开发习惯了 MySQL (InnoDB) 的行为,认为一条几千万行的 DELETE 最多就是跑得慢、产生大量 Undo/Redo log、导致主从延迟。但在 TiDB 这种计算与存储分离、基于 Percolator 事务模型的 HTAP 架构中,机制完全不同。

    一条巨型 DELETE 在 TiDB 的执行生命周期,就是一场灾难的酝酿过程:

    1. 计算节点内存撑爆 (TiDB OOM)

    TiDB 为了支持乐观/悲观事务,在事务提交前,会将所有修改(对于 DELETE,就是将被删记录的 Key 和空 Value)缓存在 TiDB Server 的内存中(memDB)。 8000 万行记录,如果每行转化出的 KV 占 200 Bytes,单条事务在内存中就需要硬吃至少 15GB 的堆内存。再加上 Go 语言在应对这种瞬间海量小对象分配时,GC 往往会严重滞后,导致实际 RSS 占用翻倍,轻松击穿 tidb_server_memory_limit 的软限制,直接被 OS OOM-Killer 带走。

    2. Prewrite 阶段的锁风暴 (Lock Storm)

    哪怕服务器内存够大扛住了第一波,在 2PC 的 Prewrite 阶段,TiDB 会向 TiKV 写入分布式的锁:

    • 从这 8000 万个 Key 中选出一个作为 Primary Key (Primary Lock)

    • 将剩余的 7999 万多条记录作为 Secondary Locks 写入 TiKV,并全部指向那个 Primary Lock。

    此时,TiKV 集群被灌入数千万个 Lock CF(Column Family)记录。如果其他正常的业务请求(哪怕是读操作)碰巧访问到了这 8000 万行数据中的任意一行,按照 Percolator 协议,读请求会被锁阻塞。

    3. ResolveLock 级联雪崩

    当正常请求遇到这些锁,且发现锁所属的事务持锁时间过长时,会尝试进行清锁操作(ResolveLock)

    • 读请求会去反查 Primary Lock 的状态,确认那个巨型事务到底提交了没有。

    • 由于巨型事务的 Primary Lock 所在 Region 可能正处于极高的负载中,反查 RPC 出现堆积和超时。

    • 海量的正常请求全部卡在 ResolveLock 阶段,TiKV 的 Coprocessor 线程池和 gRPC 线程池被彻底打满,导致全表甚至全库的请求响应卡死,这就是经典的读写相互阻塞

    防御性加固与解决方案

    修复这个烂摊子,第一步是立刻 Kill 掉那个执行 DELETE 的会话,但这只是止血。为了彻底杜绝此类问题,必须从架构配置和研发规范上进行双重封堵。

    1. 严格限制事务大小与内存配额

    不要指望开发自觉,必须在配置层面进行防御性斩断。检查并调整 TiDB 配置文件:

    [performance]
    # 限制单事务的最大容量,默认 100MB,最大不超过 1GB。绝不给跑百 GB 级别事务的机会。
    txn-total-size-limit = 104857600
    
    [mem-quota]
    # 限制单条 SQL 的内存使用,超过后触发 oom-action
    query = 1073741824 # 1GB
    oom-action = "cancel" # 默认通常是 cancel,确保内存超限时直接终止 SQL 而不是拖死节点
    

    注:在 TiDB v6.1+ 中,全局内存控制 server-memory-quotatidb_server_memory_limit 系统变量已经完善,但精细到 query 级别的 cancel 依然是防范 OOM 的最后一道防线。

    2. 使用非事务 DML 或分批处理

    对于大批量历史数据清理,正确的做法是将其切分为无数个小事务。TiDB 官方提供了一项专用于此类场景的功能:Non-transactional DML

    -- 将大 DELETE 拆分为基于主键或者时间范围的小批量操作
    BATCH ON id LIMIT 5000 
    DELETE FROM action_log WHERE create_time < '2023-01-01';
    

    这条语句会在 TiDB 内部自动按 id 划分范围,每次只在一个小范围内执行 DELETE 并独立提交,从而绕过事务大小限制,彻底避免长事务持有海量锁导致的 OOM 和锁风暴。

    3. TiKV 侧 RocksDB 与 Raft 调优

    排查中发现 TiKV OOM 或高负载,往往是因为写入量太大导致 RocksDB Write Stall。保证 block-cache 配置合理,不超过系统内存的 45%。对于高频批量删除业务,考虑调大 max-background-jobs 加速 Compaction,避免 Tombstone 过多导致后续查询扫描性能断崖式下跌。

    排查清单 (大事务与 OOM 问题速查)

    1. dmesg 与 OOM 确认:快速执行 dmesg -T | grep -i oom,确认 tidb-servertikv-server 是否被内核 Kill,排除网络分区导致的假死。

    2. 排查慢查询与内存大户:查询 INFORMATION_SCHEMA.SLOW_QUERY 或 TiDB Dashboard,按 Mem_maxProcess_time 倒序,揪出未加 LIMIT 或扫描行数极大的问题 SQL。

    3. 核对事务配额参数:检查集群的 txn-total-size-limit 参数是否被违规调大(正常业务不应超过 100MB)。

    4. 监控 Lock 冲突指标:在 Grafana -> TiDB -> KV Errors 面板中,重点观察 KV Backoff OPS (特别是 txnLocktxnLockFast),若该指标激增,说明集群存在大事务或热点记录的严重写冲突。

    5. 垃圾回收 (GC) 状态确认:大批量 DELETE 后,务必通过 mysql.tidb 表检查 GC Safe Point 是否正常推进。大量的无用版本积压会拖慢整个集群的物理读取效率。