故障域隔离 – HDUO Lab

某次生产环境突发全站504报错，核心交易链路QPS从2万直降为0，监控大屏一片通红。排查结论极度低级：所谓的“同城双活”架构，仅仅是接入层和无状态计算层的双活，底层核心数据依然强依赖AZ1（可用区1）的单点主库。AZ2到AZ1的跨机房专线仅仅出现了持续约3秒、峰值200ms的延迟抖动，就直接耗尽了AZ2业务线的DB连接池；随后，全局网关层触发“无脑重试风暴”，将原本毫无问题的AZ1主库瞬间打挂，引发全局雪崩。

解决跨机房架构问题，不从“故障域隔离”入手，光在接入层搞几个VIP负载均衡，纯属自欺欺人的PPT架构。

现场还原：一根光纤引发的血案

排查过程中，最直观的现象是全局入口Nginx疯狂抛出504：

[error] 24155#0: *13444521 upstream timed out (110: Connection timed out) while reading response header from upstream...

登录AZ2的业务容器抓取堆栈，发现大量线程处于 WAITING 状态，全部阻塞在 HikariCP 连接池获取连接上：

"http-nio-8080-exec-15" #45 daemon prio=5 os_prio=0 tid=0x00007f8a1c0b8800 nid=0x2b waiting on condition [0x00007f89d413a000]
   java.lang.Thread.State: TIMED_WAITING (parking)
    at sun.misc.Unsafe.park(Native Method)
    at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)
    at com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:188)
    ...

进一步查看AZ1核心MySQL主库状态，平时常态下 Threads_running 只有几十，此时已经飙升到系统极限，Load Average 直接破百：

mysql> show global status like 'Threads_running';
+-----------------+-------+
| Variable_name   | Value |
+-----------------+-------+
| Threads_running | 2548  |
+-----------------+-------+

$ uptime
 14:22:13 up 145 days,  2:11,  1 user,  load average: 184.32, 138.11, 89.45

致命的逻辑漏洞：为什么犯错不可原谅？

这套被吹得天花乱坠的“同城双活”架构，存在两个极其致命的设计缺陷，这也是为什么我会说它不可原谅：

1. 掩耳盗铃的“跨机房同步写” 在双活架构设计中，最大的大忌就是跨AZ同步RPC/DB调用。业务侧在AZ2处理请求，却要跨越几十公里的物理专线去读写AZ1的MySQL主库。光速不可变，物理专线常态延迟在 2-3ms 左右，看似很快，但只要遇到网络设备的微小抖动（丢包重传导致延迟突增至200ms+），单个请求占用数据库连接的时间就被放大了100倍。高并发场景下，连接池（通常配置 maximumPoolSize=50）会在几百毫秒内被彻底抽干。随之而来的就是应用层线程全量阻塞，引发AZ2假死。

2. 盲目自信的全局重试策略 如果仅仅是AZ2挂了，还不至于全站崩溃，毕竟AZ1依然存活。真正补上致命一刀的，是网关层的重试配置：

proxy_next_upstream error timeout http_500 http_502 http_503 http_504;
proxy_next_upstream_tries 3;

当网关发现AZ2的节点超时，它体贴地将流量全部重试到了AZ1。同时，C端用户的焦躁疯狂刷新，导致系统的实际请求量瞬间飙升了数倍。此时的AZ1不仅要承受原有的流量，还要接管AZ2的灾备流量，外加几倍的重试洪峰。AZ1的数据库在没有做好任何限流、降级准备的情况下，瞬间被连接数打爆，彻底陷入死锁。

真正的多活架构，核心是故障域的严格物理隔离。如果AZ2的生存强依赖于AZ1，那么它们在逻辑上依然属于同一个单点故障域。

破局与架构纠偏

针对这类“伪双活”架构的改造，没有捷径可走。以下是止血和根治的几个核心落地点：

配置层面的防御性加固（快速止血）：

严控连接池超时机制： 绝不允许应用无限制地等待连接。将 HikariCP 的 connectionTimeout 严格控制在 1000ms 以内，拿不到连接直接 Fast Fail，保住Tomcat/Undertow的工作线程。
砍掉无意义的网关重试： 对于非幂等或高耗时的核心写接口，一律禁止在网关层做 proxy_next_upstream 重试。重试只会让本就拥堵的链路雪上加霜。
引入断路器： 在微服务侧或网关侧全面接入 Resilience4j/Sentinel，当检测到目标AZ的接口处于高延迟或高失败率时，果断熔断降级。

架构层面的重构（彻底根治）：

单元化改造（Set化）： 真正的双活必须将数据层也切分。通过路由网关（如基于 UserID 哈希），将用户固定在某个AZ。AZ内形成闭环（App -> Cache -> DB 均在本AZ），AZ之间通过 DRC（如 Canal/Otter）进行底层Binlog的异步双向同步，彻底切断跨AZ的强依赖同步调用。

💡 排查清单：跨机房/双活架构高可用速查

链路依赖闭环检查： 梳理核心链路，确认单个可用区（AZ）内部的计算、缓存、数据库调用是否形成闭环，是否存在隐藏的跨机房同步读写。
连接池超时配置审查： 检查所有服务端的数据库连接池（HikariCP/Druid）、Redis连接池（Jedis/Lettuce）以及 HTTP Client 的连接/读取超时时间，确保没有任何一项使用默认的无限期等待配置。
网关/RPC重试策略排查： 检查 Nginx/Envoy 及 Dubbo/gRPC 的重试次数配置，评估在单机房故障时，重试机制是否会引发倍数级流量放大导致雪崩。
数据库连接堆积监控： 在监控大盘强化针对 Threads_running 和 Threads_connected 的突增告警，结合网络层的跨AZ丢包率指标（Ping Loss）进行组合分析。

标签： 故障域隔离

跨AZ专线抖动引发的全局雪崩：揭穿“伪双活”架构的遮羞布

现场还原：一根光纤引发的血案

致命的逻辑漏洞：为什么犯错不可原谅？

破局与架构纠偏

💡 排查清单：跨机房/双活架构高可用速查

标签：故障域隔离