SRE实战 – HDUO Lab

生产环境绝大多数告警风暴源于粗放的“资源阈值”触发器。要真正给 On-Call 工程师减负，必须抛弃 CPU/内存使用率等原因导向告警，转向基于用户体验的 SLO（服务级别目标）现象导向告警。本文直接给出基于 Prometheus 的多窗口多燃烧率（Multi-Window Burn Rate）实现方案，结合 Alertmanager 路由抑制，彻底过滤瞬态抖动噪音。

现场还原：被“阈值告警”淹没的真正故障

近期排查过一个典型案例：某个核心交易链路出现 504 Gateway Timeout 雪崩。但在故障发生时的前 5 分钟内，On-Call 工程师的 Slack 和邮箱瞬间涌入 400 多条告警。

其中 95% 的告警长这样：

[FIRING] K8sNodeCpuHigh
Severity: warning
Summary: Node 10.x.x.x CPU usage is > 85%
Description: CPU usage is at 92% for more than 3m.

工程师的注意力完全被 Kubernetes 节点的 CPU 和 Pod 的重启告警吸引，试图去扩容 Node。但底层根因其实是：DB 连接池因慢查询耗尽，导致上游网关堆积请求，线程阻塞打满 CPU。高 CPU 只是结果，而非原因。 真正有价值的告警——“支付接口 P99 延迟突破 2s”被淹没在无穷无尽的资源告警噪音中。

这种传统的告警配置策略（如 CPU > 80% 告警），在现代微服务和云原生架构中，除了消耗 SRE 的精力，毫无价值。

为什么我们必须彻底抛弃静态资源利用率告警？

传统的监控思路是自底向上的（Bottom-Up）：监控机器 -> 监控 OS -> 监控 DB -> 监控应用。但在 K8S 集群中，Pod 随时在漂移，HPA（Horizontal Pod Autoscaler）会根据负载自动扩缩容。一个节点 CPU 跑到 90% 完全是资源利用率高的健康表现，只要服务的 RT（响应时间）和错误率达标，用户根本不关心你的 CPU 是 10% 还是 99%。

防御性运维的核心思想是面向症状告警（Symptom-based Alerting）。我们需要围绕 SLI（服务级别指示器）来构建监控体系，通常只关注四个黄金信号：延迟、流量、错误、饱和度。当且仅当错误预算（Error Budget）被快速消耗时，才触发 P1 级别 On-Call 呼叫。

SLO 燃烧率告警核心架构与 PromQL 落地实战

基于 Google SRE 实践，我们采用多时间窗口多燃烧率（Multi-Window, Multi-Burn-Rate）模型。

假设我们的 SLO 是：API 过去 30 天的可用性达到 99.9%。这意味着 30 天（730 小时）内的错误预算（Error Budget）为 0.1%。

如果我们在 1 小时内消耗了整个月 2% 的错误预算，燃烧率（Burn Rate）计算如下： (2% / 100%) / (1h / 730h) ≈ 14.6（通常工程上取 14.4）。

为了防止低频抖动触发告警（Flapping），我们引入双窗口：长窗口（1h）用于触发，短窗口（5m）用于确认当前故障仍在持续。只有当两个窗口的燃烧率同时超标时，才发出告警。

1. 预计算 Recording Rules (Prometheus 2.45+)

直接在告警规则中跑高基数（High Cardinality）的原始指标聚合会导致 Prometheus 评估超时。必须先使用 Recording Rules 将 SLI 降维。

groups:
  - name: slo_sli_recordings
    interval: 1m
    rules:
      # 计算过去 5 分钟的错误率 SLI
      - record: job:request_error_rate5m
        expr: |
          sum by (job) (rate(http_requests_total{status=~"5.."}[5m]))
          /
          sum by (job) (rate(http_requests_total[5m]))

      # 计算过去 1 小时的错误率 SLI
      - record: job:request_error_rate1h
        expr: |
          sum by (job) (rate(http_requests_total{status=~"5.."}[1h]))
          /
          sum by (job) (rate(http_requests_total[1h]))

2. 多窗口燃烧率告警规则

在上述预计算指标的基础上，配置 14.4 燃烧率告警（严重告警，即刻 Page On-Call）：

groups:
  - name: slo_burn_rate_alerts
    rules:
      - alert: API_HighErrorBurnRate_Page
        # 条件：1小时的燃烧率 > 14.4 且 5分钟的燃烧率 > 14.4
        # SLO=99.9%, Budget=0.1% (0.001)
        # 14.4 * 0.001 = 0.0144 (即 1.44% 的绝对错误率阈值)
        expr: |
          (
            job:request_error_rate1h > 0.0144
            and
            job:request_error_rate5m > 0.0144
          )
        labels:
          severity: critical
          pager: "true"
        annotations:
          summary: "API 错误预算极速消耗 (Burn Rate > 14.4)"
          description: "服务 {{ $labels.job }} 在过去1小时内消耗了 2% 的月度错误预算，请立即介入排查。"

通过这种多窗口机制，若只是 1 分钟的网络抖动，5m 窗口会很快回落，告警自动解除，On-Call 工程师根本不会被打扰；而如果是持续的底层熔断，1h 窗口和 5m 窗口同时达标，立刻触发电话告警。

Alertmanager 高级减噪机制：Inhibit 与 Grouping

即使有了 SLO 告警，在机房级网络割接或交换机故障时，仍会产生“服务级 SLO 全部崩塌”的并发告警。此时必须利用 Alertmanager (v0.26+) 的 group_by 和 inhibit_rules 机制。

1. 分组折叠 (Grouping)

不要让每个容器的报错发一条消息，按服务或集群聚合：

route:
  receiver: 'slack-oncall'
  group_by: ['job', 'cluster']
  group_wait: 30s      # 等待30秒收集同类告警
  group_interval: 5m   # 每5分钟发送一批新告警
  repeat_interval: 4h  # 未解决告警4小时后才重发

2. 拓扑抑制 (Inhibition)

底层基础组件宕机时，静默其上层所有应用的告警。例如：所在宿主机 NodeDown，则直接抑制该宿主机上所有 Pod 触发的 SLO 告警。

inhibit_rules:
  - source_matchers:
      - alertname = "NodeDown"
      - severity = "critical"
    target_matchers:
      - severity =~ "warning|critical|info"
    # 只要 target 告警的 instance/node 标签和 source 匹配，就将其丢弃
    equal: ['node', 'cluster']

通过抑制链设计：DatacenterDown -> 抑制 ClusterDown -> 抑制 NodeDown -> 抑制 AppSLOAlert，在灾难性故障现场，On-Call 工程师只会收到唯一一条最顶层的根因告警。

常见问题

Q：既然抛弃了静态资源告警，数据库磁盘满了或者证书过期这类问题怎么监控？ A：不要陷入极端。基于症状的 SLO 告警针对的是用户请求链路。对于确定性的、必然导致宕机且有充足时间提前干预的“饱和度/容量指标”（如磁盘使用率 > 85%、TLS 证书 7 天后过期），依然需要配置静态阈值告警，但这部分告警级别通常设为 Warning，走工单或 IM 推送，白天处理即可，绝不能 Page 深夜的 On-Call。

Q：对于流量极低的服务（比如每分钟只有几个请求），SLO 燃烧率计算会剧烈抖动，如何解决？ A：低频服务的指标在计算 rate() 时极易出现“分母为0”或“1个错误=100%错误率”的噪音。解决方案是在 PromQL 中加入绝对流量过滤条件，例如 and sum by (job) (rate(http_requests_total[5m])) > 10，确保样本量具备统计学意义时才评估错误率。

Q：如何定义异步消息队列（如 Kafka/RocketMQ 消费端）的 SLI？ A：异步服务的核心用户体验不是“同步响应时间”，而是“消息堆积延迟”。SLI 可以定义为：过去 5 分钟内，99% 的消息从发送到被消费的端到端延迟（End-to-End Latency）小于 5 秒，或者更直白地以 Consumer Group 的 Lag 积压绝对值作为 SLI 指标，结合消费速率评估剩余处理时间（Time-to-critical）。

混沌工程绝不是毫无章法的“拔网线”。本文直接拆解基于 Chaos Mesh (v2.6.2) 的底层故障注入原理（Linux tc 与 eBPF 机制），并给出一套将故障注入与 Prometheus SLO 报警集成的自动化 GameDay 验证闭环方案。记住：没有可观测性度量和自动恢复兜底的故障注入，纯粹是在搞破坏。

为什么你的故障注入总是不及预期？深入 TC 与 eBPF 机制

很多研发拿着现成的 YAML 一把梭，看到 Pod 报错就以为混沌实验成功了。但在真实的排查场景中，如果不清楚底层到底“烂”在哪个系统调用或网络栈层级，你根本无法验证微服务的超时重试和熔断机制是否真正生效。

1. 网络延迟注入：Netem 与 Namespace 的戏法

当你下发一个针对某个 Pod 的网络延迟（NetworkChaos）时，控制面并不会去修改交换机配置。底层的 chaos-daemon 会通过 Kubelet 拿到目标容器的 PID，然后利用 nsenter 钻进该容器的网络命名空间（Network Namespace），利用 Linux 内核自带的 Traffic Control (tc) 和 netem 模块进行流量整形。

某次验证超时熔断时，发现注入 200ms 延迟后应用依然秒回。直接登录 Node，钻入目标 Pod 命名空间查看真实流控规则：

# 获取目标 Pod 容器的主进程 PID
PID=$(crictl inspect <container_id> | jq .info.pid)

# 进入容器的网络命名空间查看 tc 规则
nsenter -t $PID -n tc -s qdisc show dev eth0

正常被注入延迟的网卡，你能看到类似如下的输出：

qdisc netem 1: root refcnt 2 limit 1000 delay 200.0ms  10.0ms 25%
 Sent 10234 bytes 81 pkt (dropped 0, overlimits 0 requeues 0)
 backlog 0b 0p requeues 0

如果输出是 qdisc pfifo_fast 0:，说明 tc 规则根本没打上。通常是因为 CNI 插件（如 Cilium 的某些 BPF 模式）绕过了宿主机的 veth pair，或者内核没有加载 sch_netem 模块（modprobe sch_netem 可解）。

2. 磁盘 IO 故障：eBPF 对 VFS 的精准拦截

早期的 IO 故障注入靠在容器里跑 dd 把磁盘带宽打满，这种做法极度粗暴，且容易引发宿主机的 IO 风暴，波及同节点其他核心 Pod（典型的爆炸半径失控）。

现代混沌工程（如 Chaos Mesh 的 IOChaos）在内核态使用 eBPF 实现精准注入。要求宿主机内核至少在 4.17+（推荐 5.4+ 以获得稳定的 BPF 特性）。其原理是将一段 BPF 字节码挂载到内核的 VFS（虚拟文件系统）层面上，例如通过 kprobe 拦截 vfs_read 和 vfs_write 函数。

当目标进程发起读写请求时，BPF 程序会被触发，强制在内核态 bpf_ktime_get_ns() 循环等待（制造延迟），或者直接修改系统调用返回值，返回 -EIO (Input/output error)（制造读写失败）。这种方式只针对特定 PID 和特定目录生效，彻底切断了对宿主机全局的干扰。

SLO 验证闭环：用数据说话，拒绝肉眼盯盘

GameDay（故障演练日）的核心不是制造恐慌，而是验证系统的容错边界是否符合 SLO（服务级别目标）。我们通常以 Error Budget（错误预算）消耗率为核心判定标准。

在演练前，必须确保 Prometheus 中有定义严谨的 SLO 监控指标。例如，核心交易链路的 P99 延迟 SLO 定义为 200ms。

# 记录规则：计算订单服务 P99 延迟
record: job:request_latency:p99
expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket{service="order-svc"}[1m])) by (le))

在 GameDay 流程中，自动化脚本的逻辑应该是：

持续轮询拉取当前 P99 延迟，确认 Baseline 正常（如 50ms）。
下发 NetworkChaos，注入 150ms 延迟。
观测 P99 延迟指标是否在 1 分钟内攀升至 200ms 左右。
核心断言：断言上游 API Gateway 的 5xx 错误率是否上升。如果上游配置了合理的 100ms 超时和重试熔断，上游应用应触发熔断策略，而不会被下游彻底拖死导致线程池耗尽（防止级联雪崩）。

GameDay 实战剧本：千万别忘了防御性恢复

这里给出一个验证数据库主备切换的真实网络隔离注入配置片段。注意其中的 duration 和 mode 参数，这是防御性编程在混沌工程中的体现。

apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: db-partition-gameday
  namespace: sre-chaos
spec:
  action: partition
  mode: fixed
  value: "1" # 仅影响 1 个目标 Pod（爆炸半径控制）
  selector:
    namespaces:
      - production
    labelSelectors:
      "app": "mysql-cluster"
      "role": "master"
  direction: both
  target:
    selector:
      namespaces:
        - production
      labelSelectors:
        "app": "order-service"
  # 极其重要：强制 60 秒后自动恢复。严禁在没有自动恢复时间的配置下执行演练！
  duration: "60s"

排查心法：演练过程中如果发现系统挂了且无法自愈，第一反应是直接删除 Chaos 资源（kubectl delete networkchaos db-partition-gameday -n sre-chaos）。如果 chaos-controller-manager 组件本身在这个时候假死卡住了，立刻在宿主机执行兜底恢复脚本： find /proc -maxdepth 1 -regex '/proc/[0-9]+' -exec nsenter -t {} -n tc qdisc del dev eth0 root 2>/dev/null \; （强制清理节点上所有的 tc 限制，简单粗暴但救命）。

常见问题

Q1: 生产环境做混沌实验，如果控制面（Controller）挂了，故障一直存在怎么兜底？ 控制面宕机会导致 duration 到期后无法自动清理。成熟的落地方案必须在 Node 层面部署一层“看门狗（Watchdog）”。可以写一个 DaemonSet，每 10 秒去 APIServer 检查特定 Chaos 对象是否存在，如果 APIServer 超时无响应，或者 Chaos 对象已被标记删除但底层规则还在，DaemonSet 直接在本地执行 tc qdisc del 或 bpf-loader unload 强制清理底层规则，确保业务绝对存活。

Q2: 使用 PodChaos 注入了 CPU 满载（Stress）故障，为什么进容器敲 top 命令看到的 CPU 使用率并没有飙升？ 这是容器隔离性带来的经典视图问题。top 命令读取的是 /proc/stat，默认情况下容器内挂载的是宿主机的 /proc 系统（除非你使用了 lxcfs 这类用户态文件系统）。因此 top 看到的是整个宿主机的 CPU 状态。要确认容器是否被压满，应该在宿主机查看目标容器对应的 cgroup 统计指标：cat /sys/fs/cgroup/cpu/kubepods.slice/kubepods-pod.slice/cpuacct.usage_percpu。

Q3: 注入 IO 故障后，为什么 Node 节点内核直接发生 Panic 重启了？ eBPF 的能力虽然强大，但拦截诸如 vfs_read/write 属于非常底层的内核操作。在特定的 Linux 内核版本（尤其是一些云厂商魔改的 4.19.x 分支）中，bpf 钩子与系统现有的某些内核模块（如特定的存储驱动）会产生竞态条件。遇到内核 Panic，首先通过 kdump 捕获 vmcore，用 crash 工具查看堆栈调用树（Backtrace），通常能看到 bpf_prog_XXX 导致了空指针解引用。解决办法是：升级内核至稳定版（如 5.4.x），或改用相对高层的应用级注入方案。

标签： SRE实战

深入 SRE 告警治理：告别资源阈值风暴，基于多窗口 SLO 燃烧率与 Alertmanager 抑制实战

现场还原：被“阈值告警”淹没的真正故障

为什么我们必须彻底抛弃静态资源利用率告警？

SLO 燃烧率告警核心架构与 PromQL 落地实战

1. 预计算 Recording Rules (Prometheus 2.45+)

2. 多窗口燃烧率告警规则

Alertmanager 高级减噪机制：Inhibit 与 Grouping

1. 分组折叠 (Grouping)

2. 拓扑抑制 (Inhibition)

常见问题

深入混沌工程内核：从 TC/eBPF 故障注入到 SLO 自动化验证实战

为什么你的故障注入总是不及预期？深入 TC 与 eBPF 机制

1. 网络延迟注入：Netem 与 Namespace 的戏法

2. 磁盘 IO 故障：eBPF 对 VFS 的精准拦截

SLO 验证闭环：用数据说话，拒绝肉眼盯盘

GameDay 实战剧本：千万别忘了防御性恢复

常见问题