标签: 高可用架构

  • 跨AZ专线抖动引发的全局雪崩:揭穿“伪双活”架构的遮羞布

    某次生产环境突发全站504报错,核心交易链路QPS从2万直降为0,监控大屏一片通红。排查结论极度低级:所谓的“同城双活”架构,仅仅是接入层和无状态计算层的双活,底层核心数据依然强依赖AZ1(可用区1)的单点主库。AZ2到AZ1的跨机房专线仅仅出现了持续约3秒、峰值200ms的延迟抖动,就直接耗尽了AZ2业务线的DB连接池;随后,全局网关层触发“无脑重试风暴”,将原本毫无问题的AZ1主库瞬间打挂,引发全局雪崩。

    解决跨机房架构问题,不从“故障域隔离”入手,光在接入层搞几个VIP负载均衡,纯属自欺欺人的PPT架构。

    现场还原:一根光纤引发的血案

    排查过程中,最直观的现象是全局入口Nginx疯狂抛出504:

    [error] 24155#0: *13444521 upstream timed out (110: Connection timed out) while reading response header from upstream...
    

    登录AZ2的业务容器抓取堆栈,发现大量线程处于 WAITING 状态,全部阻塞在 HikariCP 连接池获取连接上:

    "http-nio-8080-exec-15" #45 daemon prio=5 os_prio=0 tid=0x00007f8a1c0b8800 nid=0x2b waiting on condition [0x00007f89d413a000]
       java.lang.Thread.State: TIMED_WAITING (parking)
        at sun.misc.Unsafe.park(Native Method)
        at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)
        at com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:188)
        ...
    

    进一步查看AZ1核心MySQL主库状态,平时常态下 Threads_running 只有几十,此时已经飙升到系统极限,Load Average 直接破百:

    mysql> show global status like 'Threads_running';
    +-----------------+-------+
    | Variable_name   | Value |
    +-----------------+-------+
    | Threads_running | 2548  |
    +-----------------+-------+
    
    $ uptime
     14:22:13 up 145 days,  2:11,  1 user,  load average: 184.32, 138.11, 89.45
    

    致命的逻辑漏洞:为什么犯错不可原谅?

    这套被吹得天花乱坠的“同城双活”架构,存在两个极其致命的设计缺陷,这也是为什么我会说它不可原谅:

    1. 掩耳盗铃的“跨机房同步写” 在双活架构设计中,最大的大忌就是跨AZ同步RPC/DB调用。 业务侧在AZ2处理请求,却要跨越几十公里的物理专线去读写AZ1的MySQL主库。光速不可变,物理专线常态延迟在 2-3ms 左右,看似很快,但只要遇到网络设备的微小抖动(丢包重传导致延迟突增至200ms+),单个请求占用数据库连接的时间就被放大了100倍。 高并发场景下,连接池(通常配置 maximumPoolSize=50)会在几百毫秒内被彻底抽干。随之而来的就是应用层线程全量阻塞,引发AZ2假死。

    2. 盲目自信的全局重试策略 如果仅仅是AZ2挂了,还不至于全站崩溃,毕竟AZ1依然存活。真正补上致命一刀的,是网关层的重试配置:

    proxy_next_upstream error timeout http_500 http_502 http_503 http_504;
    proxy_next_upstream_tries 3;
    

    当网关发现AZ2的节点超时,它体贴地将流量全部重试到了AZ1。同时,C端用户的焦躁疯狂刷新,导致系统的实际请求量瞬间飙升了数倍。 此时的AZ1不仅要承受原有的流量,还要接管AZ2的灾备流量,外加几倍的重试洪峰。AZ1的数据库在没有做好任何限流、降级准备的情况下,瞬间被连接数打爆,彻底陷入死锁。

    真正的多活架构,核心是故障域的严格物理隔离。如果AZ2的生存强依赖于AZ1,那么它们在逻辑上依然属于同一个单点故障域。

    破局与架构纠偏

    针对这类“伪双活”架构的改造,没有捷径可走。以下是止血和根治的几个核心落地点:

    配置层面的防御性加固(快速止血):

    • 严控连接池超时机制: 绝不允许应用无限制地等待连接。将 HikariCP 的 connectionTimeout 严格控制在 1000ms 以内,拿不到连接直接 Fast Fail,保住Tomcat/Undertow的工作线程。

    • 砍掉无意义的网关重试: 对于非幂等或高耗时的核心写接口,一律禁止在网关层做 proxy_next_upstream 重试。重试只会让本就拥堵的链路雪上加霜。

    • 引入断路器: 在微服务侧或网关侧全面接入 Resilience4j/Sentinel,当检测到目标AZ的接口处于高延迟或高失败率时,果断熔断降级。

    架构层面的重构(彻底根治):

    • 单元化改造(Set化): 真正的双活必须将数据层也切分。通过路由网关(如基于 UserID 哈希),将用户固定在某个AZ。AZ内形成闭环(App -> Cache -> DB 均在本AZ),AZ之间通过 DRC(如 Canal/Otter)进行底层Binlog的异步双向同步,彻底切断跨AZ的强依赖同步调用。

    💡 排查清单:跨机房/双活架构高可用速查

    1. 链路依赖闭环检查: 梳理核心链路,确认单个可用区(AZ)内部的计算、缓存、数据库调用是否形成闭环,是否存在隐藏的跨机房同步读写。

    2. 连接池超时配置审查: 检查所有服务端的数据库连接池(HikariCP/Druid)、Redis连接池(Jedis/Lettuce)以及 HTTP Client 的连接/读取超时时间,确保没有任何一项使用默认的无限期等待配置。

    3. 网关/RPC重试策略排查: 检查 Nginx/Envoy 及 Dubbo/gRPC 的重试次数配置,评估在单机房故障时,重试机制是否会引发倍数级流量放大导致雪崩。

    4. 数据库连接堆积监控: 在监控大盘强化针对 Threads_runningThreads_connected 的突增告警,结合网络层的跨AZ丢包率指标(Ping Loss)进行组合分析。

  • 深入混沌工程内核:从 TC/eBPF 故障注入到 SLO 自动化验证实战

    混沌工程绝不是毫无章法的“拔网线”。本文直接拆解基于 Chaos Mesh (v2.6.2) 的底层故障注入原理(Linux tc 与 eBPF 机制),并给出一套将故障注入与 Prometheus SLO 报警集成的自动化 GameDay 验证闭环方案。记住:没有可观测性度量和自动恢复兜底的故障注入,纯粹是在搞破坏。

    为什么你的故障注入总是不及预期?深入 TC 与 eBPF 机制

    很多研发拿着现成的 YAML 一把梭,看到 Pod 报错就以为混沌实验成功了。但在真实的排查场景中,如果不清楚底层到底“烂”在哪个系统调用或网络栈层级,你根本无法验证微服务的超时重试和熔断机制是否真正生效。

    1. 网络延迟注入:Netem 与 Namespace 的戏法

    当你下发一个针对某个 Pod 的网络延迟(NetworkChaos)时,控制面并不会去修改交换机配置。底层的 chaos-daemon 会通过 Kubelet 拿到目标容器的 PID,然后利用 nsenter 钻进该容器的网络命名空间(Network Namespace),利用 Linux 内核自带的 Traffic Control (tc) 和 netem 模块进行流量整形。

    某次验证超时熔断时,发现注入 200ms 延迟后应用依然秒回。直接登录 Node,钻入目标 Pod 命名空间查看真实流控规则:

    # 获取目标 Pod 容器的主进程 PID
    PID=$(crictl inspect <container_id> | jq .info.pid)
    
    # 进入容器的网络命名空间查看 tc 规则
    nsenter -t $PID -n tc -s qdisc show dev eth0
    

    正常被注入延迟的网卡,你能看到类似如下的输出:

    qdisc netem 1: root refcnt 2 limit 1000 delay 200.0ms  10.0ms 25%
     Sent 10234 bytes 81 pkt (dropped 0, overlimits 0 requeues 0)
     backlog 0b 0p requeues 0
    

    如果输出是 qdisc pfifo_fast 0:,说明 tc 规则根本没打上。通常是因为 CNI 插件(如 Cilium 的某些 BPF 模式)绕过了宿主机的 veth pair,或者内核没有加载 sch_netem 模块(modprobe sch_netem 可解)。

    2. 磁盘 IO 故障:eBPF 对 VFS 的精准拦截

    早期的 IO 故障注入靠在容器里跑 dd 把磁盘带宽打满,这种做法极度粗暴,且容易引发宿主机的 IO 风暴,波及同节点其他核心 Pod(典型的爆炸半径失控)。

    现代混沌工程(如 Chaos Mesh 的 IOChaos)在内核态使用 eBPF 实现精准注入。要求宿主机内核至少在 4.17+(推荐 5.4+ 以获得稳定的 BPF 特性)。其原理是将一段 BPF 字节码挂载到内核的 VFS(虚拟文件系统)层面上,例如通过 kprobe 拦截 vfs_readvfs_write 函数。

    当目标进程发起读写请求时,BPF 程序会被触发,强制在内核态 bpf_ktime_get_ns() 循环等待(制造延迟),或者直接修改系统调用返回值,返回 -EIO (Input/output error)(制造读写失败)。这种方式只针对特定 PID 和特定目录生效,彻底切断了对宿主机全局的干扰。

    SLO 验证闭环:用数据说话,拒绝肉眼盯盘

    GameDay(故障演练日)的核心不是制造恐慌,而是验证系统的容错边界是否符合 SLO(服务级别目标)。我们通常以 Error Budget(错误预算)消耗率为核心判定标准。

    在演练前,必须确保 Prometheus 中有定义严谨的 SLO 监控指标。例如,核心交易链路的 P99 延迟 SLO 定义为 200ms。

    # 记录规则:计算订单服务 P99 延迟
    record: job:request_latency:p99
    expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket{service="order-svc"}[1m])) by (le))
    

    在 GameDay 流程中,自动化脚本的逻辑应该是:

    1. 持续轮询拉取当前 P99 延迟,确认 Baseline 正常(如 50ms)。

    2. 下发 NetworkChaos,注入 150ms 延迟。

    3. 观测 P99 延迟指标是否在 1 分钟内攀升至 200ms 左右。

    4. 核心断言:断言上游 API Gateway 的 5xx 错误率是否上升。如果上游配置了合理的 100ms 超时和重试熔断,上游应用应触发熔断策略,而不会被下游彻底拖死导致线程池耗尽(防止级联雪崩)。

    GameDay 实战剧本:千万别忘了防御性恢复

    这里给出一个验证数据库主备切换的真实网络隔离注入配置片段。注意其中的 durationmode 参数,这是防御性编程在混沌工程中的体现。

    apiVersion: chaos-mesh.org/v1alpha1
    kind: NetworkChaos
    metadata:
      name: db-partition-gameday
      namespace: sre-chaos
    spec:
      action: partition
      mode: fixed
      value: "1" # 仅影响 1 个目标 Pod(爆炸半径控制)
      selector:
        namespaces:
          - production
        labelSelectors:
          "app": "mysql-cluster"
          "role": "master"
      direction: both
      target:
        selector:
          namespaces:
            - production
          labelSelectors:
            "app": "order-service"
      # 极其重要:强制 60 秒后自动恢复。严禁在没有自动恢复时间的配置下执行演练!
      duration: "60s" 
    

    排查心法:演练过程中如果发现系统挂了且无法自愈,第一反应是直接删除 Chaos 资源(kubectl delete networkchaos db-partition-gameday -n sre-chaos)。如果 chaos-controller-manager 组件本身在这个时候假死卡住了,立刻在宿主机执行兜底恢复脚本: find /proc -maxdepth 1 -regex '/proc/[0-9]+' -exec nsenter -t {} -n tc qdisc del dev eth0 root 2>/dev/null \; (强制清理节点上所有的 tc 限制,简单粗暴但救命)。

    常见问题

    Q1: 生产环境做混沌实验,如果控制面(Controller)挂了,故障一直存在怎么兜底? 控制面宕机会导致 duration 到期后无法自动清理。成熟的落地方案必须在 Node 层面部署一层“看门狗(Watchdog)”。可以写一个 DaemonSet,每 10 秒去 APIServer 检查特定 Chaos 对象是否存在,如果 APIServer 超时无响应,或者 Chaos 对象已被标记删除但底层规则还在,DaemonSet 直接在本地执行 tc qdisc delbpf-loader unload 强制清理底层规则,确保业务绝对存活。

    Q2: 使用 PodChaos 注入了 CPU 满载(Stress)故障,为什么进容器敲 top 命令看到的 CPU 使用率并没有飙升? 这是容器隔离性带来的经典视图问题。top 命令读取的是 /proc/stat,默认情况下容器内挂载的是宿主机的 /proc 系统(除非你使用了 lxcfs 这类用户态文件系统)。因此 top 看到的是整个宿主机的 CPU 状态。要确认容器是否被压满,应该在宿主机查看目标容器对应的 cgroup 统计指标:cat /sys/fs/cgroup/cpu/kubepods.slice/kubepods-pod.slice/cpuacct.usage_percpu

    Q3: 注入 IO 故障后,为什么 Node 节点内核直接发生 Panic 重启了? eBPF 的能力虽然强大,但拦截诸如 vfs_read/write 属于非常底层的内核操作。在特定的 Linux 内核版本(尤其是一些云厂商魔改的 4.19.x 分支)中,bpf 钩子与系统现有的某些内核模块(如特定的存储驱动)会产生竞态条件。遇到内核 Panic,首先通过 kdump 捕获 vmcore,用 crash 工具查看堆栈调用树(Backtrace),通常能看到 bpf_prog_XXX 导致了空指针解引用。解决办法是:升级内核至稳定版(如 5.4.x),或改用相对高层的应用级注入方案。