标签: 故障域隔离

  • 跨AZ专线抖动引发的全局雪崩:揭穿“伪双活”架构的遮羞布

    某次生产环境突发全站504报错,核心交易链路QPS从2万直降为0,监控大屏一片通红。排查结论极度低级:所谓的“同城双活”架构,仅仅是接入层和无状态计算层的双活,底层核心数据依然强依赖AZ1(可用区1)的单点主库。AZ2到AZ1的跨机房专线仅仅出现了持续约3秒、峰值200ms的延迟抖动,就直接耗尽了AZ2业务线的DB连接池;随后,全局网关层触发“无脑重试风暴”,将原本毫无问题的AZ1主库瞬间打挂,引发全局雪崩。

    解决跨机房架构问题,不从“故障域隔离”入手,光在接入层搞几个VIP负载均衡,纯属自欺欺人的PPT架构。

    现场还原:一根光纤引发的血案

    排查过程中,最直观的现象是全局入口Nginx疯狂抛出504:

    [error] 24155#0: *13444521 upstream timed out (110: Connection timed out) while reading response header from upstream...
    

    登录AZ2的业务容器抓取堆栈,发现大量线程处于 WAITING 状态,全部阻塞在 HikariCP 连接池获取连接上:

    "http-nio-8080-exec-15" #45 daemon prio=5 os_prio=0 tid=0x00007f8a1c0b8800 nid=0x2b waiting on condition [0x00007f89d413a000]
       java.lang.Thread.State: TIMED_WAITING (parking)
        at sun.misc.Unsafe.park(Native Method)
        at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)
        at com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:188)
        ...
    

    进一步查看AZ1核心MySQL主库状态,平时常态下 Threads_running 只有几十,此时已经飙升到系统极限,Load Average 直接破百:

    mysql> show global status like 'Threads_running';
    +-----------------+-------+
    | Variable_name   | Value |
    +-----------------+-------+
    | Threads_running | 2548  |
    +-----------------+-------+
    
    $ uptime
     14:22:13 up 145 days,  2:11,  1 user,  load average: 184.32, 138.11, 89.45
    

    致命的逻辑漏洞:为什么犯错不可原谅?

    这套被吹得天花乱坠的“同城双活”架构,存在两个极其致命的设计缺陷,这也是为什么我会说它不可原谅:

    1. 掩耳盗铃的“跨机房同步写” 在双活架构设计中,最大的大忌就是跨AZ同步RPC/DB调用。 业务侧在AZ2处理请求,却要跨越几十公里的物理专线去读写AZ1的MySQL主库。光速不可变,物理专线常态延迟在 2-3ms 左右,看似很快,但只要遇到网络设备的微小抖动(丢包重传导致延迟突增至200ms+),单个请求占用数据库连接的时间就被放大了100倍。 高并发场景下,连接池(通常配置 maximumPoolSize=50)会在几百毫秒内被彻底抽干。随之而来的就是应用层线程全量阻塞,引发AZ2假死。

    2. 盲目自信的全局重试策略 如果仅仅是AZ2挂了,还不至于全站崩溃,毕竟AZ1依然存活。真正补上致命一刀的,是网关层的重试配置:

    proxy_next_upstream error timeout http_500 http_502 http_503 http_504;
    proxy_next_upstream_tries 3;
    

    当网关发现AZ2的节点超时,它体贴地将流量全部重试到了AZ1。同时,C端用户的焦躁疯狂刷新,导致系统的实际请求量瞬间飙升了数倍。 此时的AZ1不仅要承受原有的流量,还要接管AZ2的灾备流量,外加几倍的重试洪峰。AZ1的数据库在没有做好任何限流、降级准备的情况下,瞬间被连接数打爆,彻底陷入死锁。

    真正的多活架构,核心是故障域的严格物理隔离。如果AZ2的生存强依赖于AZ1,那么它们在逻辑上依然属于同一个单点故障域。

    破局与架构纠偏

    针对这类“伪双活”架构的改造,没有捷径可走。以下是止血和根治的几个核心落地点:

    配置层面的防御性加固(快速止血):

    • 严控连接池超时机制: 绝不允许应用无限制地等待连接。将 HikariCP 的 connectionTimeout 严格控制在 1000ms 以内,拿不到连接直接 Fast Fail,保住Tomcat/Undertow的工作线程。

    • 砍掉无意义的网关重试: 对于非幂等或高耗时的核心写接口,一律禁止在网关层做 proxy_next_upstream 重试。重试只会让本就拥堵的链路雪上加霜。

    • 引入断路器: 在微服务侧或网关侧全面接入 Resilience4j/Sentinel,当检测到目标AZ的接口处于高延迟或高失败率时,果断熔断降级。

    架构层面的重构(彻底根治):

    • 单元化改造(Set化): 真正的双活必须将数据层也切分。通过路由网关(如基于 UserID 哈希),将用户固定在某个AZ。AZ内形成闭环(App -> Cache -> DB 均在本AZ),AZ之间通过 DRC(如 Canal/Otter)进行底层Binlog的异步双向同步,彻底切断跨AZ的强依赖同步调用。

    💡 排查清单:跨机房/双活架构高可用速查

    1. 链路依赖闭环检查: 梳理核心链路,确认单个可用区(AZ)内部的计算、缓存、数据库调用是否形成闭环,是否存在隐藏的跨机房同步读写。

    2. 连接池超时配置审查: 检查所有服务端的数据库连接池(HikariCP/Druid)、Redis连接池(Jedis/Lettuce)以及 HTTP Client 的连接/读取超时时间,确保没有任何一项使用默认的无限期等待配置。

    3. 网关/RPC重试策略排查: 检查 Nginx/Envoy 及 Dubbo/gRPC 的重试次数配置,评估在单机房故障时,重试机制是否会引发倍数级流量放大导致雪崩。

    4. 数据库连接堆积监控: 在监控大盘强化针对 Threads_runningThreads_connected 的突增告警,结合网络层的跨AZ丢包率指标(Ping Loss)进行组合分析。