分类: 系统运维

  • 深入 OpenLDAP 生产雪崩排查:SSSD 全表扫描引发的 syncrepl 同步阻塞与 PAM 认证超时

    SSSD 客户端缺乏精准过滤且 OpenLDAP 缺少核心字段索引,会导致 LMDB 后端触发全表扫描。这不仅会让 slapd 进程 CPU 长期打满,还会饿死 syncrepl 复制线程,最终引发多主集群 contextCSN 断层与全局 SSH/PAM 认证雪崩。破局点在于重建 olcDbIndex、收敛 SSSD 搜寻范围并启用 delta-syncrepl

    某次排查过程中,某环境数千台 Linux 服务器突然出现 SSH 无法登陆、sudo 命令卡死的问题。查看 K8S Worker 节点的 /var/log/secure,满屏的 pam_sss(sshd:auth): System error 与超时报错。

    登录核心认证集群,发现所有 OpenLDAP (版本 2.4.59) 节点的 slapd 进程 CPU 利用率飙升至 400%(4核跑满),Load Average 突破 80。

    通过 ldapsearch 提取各节点的 contextCSN,发现 Provider 与 Consumer 之间的数据已经严重割裂:

    # Provider 节点
    $ ldapsearch -x -LLL -H ldap://10.0.0.10 -s base -b "dc=corp,dc=com" contextCSN
    contextCSN: 20231018120001.123456Z#000000#000#000000
    
    # Consumer 节点 (同步延迟超过半小时)
    $ ldapsearch -x -LLL -H ldap://10.0.0.11 -s base -b "dc=corp,dc=com" contextCSN
    contextCSN: 20231018112500.654321Z#000000#000#000000
    

    syncrepl 同步几乎处于停滞状态。开启 slapdstats 日志级别后,我们抓到了导致血案的直接原因:大量无索引的 Group 遍历查询。

    为什么百万级 DIT 下,SSSD 组查询会演变成全表扫描?

    在标准的 PAM/SSSD 集成架构中(SSSD 2.2.3),当用户尝试 SSH 登录时,SSSD 会通过 LDAP 校验用户身份并拉取该用户所属的所有组(Group)信息。

    如果我们看当时的 slapd 日志,会频繁出现以下警告:

    slapd[1234]: <= mdb_equality_candidates: (memberUid) not indexed
    slapd[1234]: <= mdb_equality_candidates: (member) not indexed
    

    在默认的 SSSD 配置下,如果你开启了 enumerate = true,或者使用了极其宽泛的 LDAP Search Base(例如直接挂在 dc=corp,dc=com 而非 ou=Groups,dc=corp,dc=com),SSSD 客户端会定期向 LDAP 发起类似 (&(objectClass=posixGroup)(memberUid=username)) 的查询。

    OpenLDAP 的 LMDB (Lightning Memory-Mapped Database) 底层是基于 B+ 树的键值对存储。当查询条件中的属性(如 memberUid)在 olcDbIndex 中没有定义 eq (精确匹配) 索引时,slapd 只能回退到最原始的处理方式:全表遍历 (Full Table Scan)

    在拥有数十万 Entry 的 DIT (Directory Information Tree) 中,单次全表扫描就会产生巨量的内存分页换入换出(Page Fault)。当几千台机器的 SSSD 并发发起查询时,LMDB 的 PageCache 被迅速击穿,磁盘 IO Wait 暴增,slapd 的查询线程池被彻底耗尽。

    syncrepl 复制堆积与写饿死机制

    理解了读性能衰减,还需要解释为什么主从同步会断层。

    OpenLDAP 的 syncrepl (基于 refreshAndPersist 模式) 是单线程拉取机制。Consumer 节点通过一个持续的 LDAP Search 连接监听 Provider 的变动。

    当 Provider 的查询线程被全表扫描的 SSSD 客户端占满时:

    1. 底层 LMDB 引擎面临极高的读锁竞争。

    2. Provider 端尝试将新的写入(比如密码错误次数更新 pwdFailureTime)提交到磁盘,但写事务在等待读事务释放锁,或者 CPU 时间片被读事务耗尽。

    3. 即使写入成功,负责向 Consumer 推送更新的 Sync Provider 线程也拿不到资源去构建同步 Payload。

    4. Consumer 端的 syncrepl 线程长轮询超时,触发重连,重连后发送自己旧的 contextCSN 要求全量对比增量数据,进一步加重了 Provider 的负担。

    这就是经典的读风暴导致写饿死,进而引发复制雪崩

    防御性调优与落地实战

    面对这种架构脆弱性,仅仅重启是没用的,必须从索引层、服务端防刷层以及客户端检索边界三个维度进行彻底改造。

    1. 补齐核心字段索引 (olcDbIndex)

    生产环境的 OpenLDAP,绝不允许出现 not indexed 警告。必须通过 ldapmodify 动态注入索引配置,然后离线重建。

    构建 index.ldif

    dn: olcDatabase={2}mdb,cn=config
    changetype: modify
    add: olcDbIndex
    olcDbIndex: memberUid eq,pres,sub
    olcDbIndex: member eq,pres
    olcDbIndex: uidNumber eq,pres
    olcDbIndex: gidNumber eq,pres
    olcDbIndex: entryCSN eq
    olcDbIndex: entryUUID eq
    

    应用配置并重建索引(针对 2.4.x 大库,最安全的方式是停机重建):

    ldapmodify -Y EXTERNAL -H ldapi:/// -f index.ldif
    systemctl stop slapd
    # 使用 slapindex 重建底层 LMDB B+ 树,切换为 ldap 用户执行
    su - ldap -s /bin/bash -c "slapindex -b 'dc=corp,dc=com'"
    systemctl start slapd
    

    2. OpenLDAP 防刷限流 (Limits & Timeouts)

    为了防止单个烂 SQL (LDAP Query) 拖垮整库,必须在服务端设置防御性阈值。在 cn=config 中限制单次查询扫描的最大条目数和时间:

    dn: olcDatabase={2}mdb,cn=config
    changetype: modify
    replace: olcSizeLimit
    olcSizeLimit: size.soft=1000 size.hard=5000
    -
    replace: olcTimeLimit
    olcTimeLimit: time.soft=10 time.hard=30
    

    超过该限制的恶意查询将直接被掐断,返回 Size limit exceeded 异常,保证核心进程存活。

    3. SSSD 客户端瘦身配置 (sssd.conf)

    绝大部分运维配置 SSSD 时喜欢照抄网上的模板。正确的 sssd.conf 应当极度收敛搜索边界:

    [domain/corp.com]
    id_provider = ldap
    auth_provider = ldap
    # 严禁在几千台机器上开启 enumerate (这会拉取全量用户列表)
    enumerate = false
    
    # 强制限定 Search Base,不要在根路径捞针
    ldap_user_search_base = ou=People,dc=corp,dc=com
    ldap_group_search_base = ou=Groups,dc=corp,dc=com
    
    # 忽略不必要的组成员查询(如果不需要依赖组成员做 sudoers 细粒度控制)
    ignore_group_members = true
    
    # 开启离线凭证缓存,在 LDAP 抖动时保证老用户依然能登录
    cache_credentials = true
    entry_cache_timeout = 14400
    

    4. 优化复制模式 (delta-syncrepl)

    当涉及到超大 Group(例如拥有上万个 memberUid 的组)时,任何一人的增删都会导致整个 Group 的全量条目被 syncrepl 传输。 在架构改造层面,必须启用 accesslog Overlay,并切换到 delta-syncrepl。该模式下,Provider 将变更操作(Modify/Add/Delete)记录到独立的 LMDB 库中,Consumer 只拉取具体的变更动作(如 add: memberUid: newuser),而不是拉取包含1万个用户的整个 Group 对象,使得网络传输和 CPU 解析开销呈指数级下降。

    常见问题 (FAQ)

    Q1:如何准确监控 OpenLDAP 的 syncrepl 复制延迟? 不要依靠 ping 端口,必须采集 contextCSN。可通过编写 Exporter 或 Shell 脚本,分别从 Provider 和 Consumer 取出 contextCSN 的时间戳部分进行差值计算。如果有多个 Provider 写入,contextCSN 会包含多个 Server ID(如 #000001, #000002),必须分别对比每个 ID 的时间戳。

    Q2:slapd 日志大量报错 mdb_db_open: database "dc=xxx" cannot be opened, err 12. Cannot allocate memory,如何处理? 这是 LMDB 的 maxsize 达到了限制。LMDB 使用内存映射文件(mmap),其 maxsize 并不代表真实占用的磁盘空间,而是虚拟内存映射的上限。默认值通常太小(如 1GB),对于生产环境,应该在 cn=configolcDbMaxSize 修改为更大的值(例如 8589934592 即 8GB),并确保操作系统层面没有限制进程的 VIRT 内存。

    Q3:SSSD 缓存导致用户刚改了组权限却不生效,怎么清理最快? 执行 sss_cache -E 清理全量缓存,或者针对特定用户执行 sss_cache -u username,然后重启 sssd 服务(systemctl restart sssd)。在生产环境批量排查时,切忌盲目清空缓存,否则瞬间穿透到 OpenLDAP 的并发查询会引发洪峰。

  • 深入 eBPF/XDP 实战:从 Netfilter 软中断打满看 XDP 快速拦截与 kfree_skb 丢包追踪

    传统 iptables/Netfilter 在千万级 PPS 场景下必然成为软中断杀手,协议栈过深的遍历路径是高并发网关的性能毒药。本文直接给出基于 eBPF/XDP 的网络防刷与加速方案,在网卡驱动层(甚至硬件卸载)直接丢弃恶意包,将 CPU si 开销降低 80%,并结合 tracepoint:skb:kfree_skb 彻底终结内核丢包“黑盒”排查。

    案发现场:Netfilter 成为性能瓶颈

    某次生产环境流量突增,某业务 Ingress 网关(Ubuntu 22.04, Kernel 5.15.0-88-generic)QPS 并没有成倍放大,但 P99 延迟直接从 20ms 飙升到了 500ms,部分节点甚至出现 SSH 登录卡顿。

    第一反应看负载,直接上 mpstat -P ALL 1,发现网卡队列绑定的几个 CPU 核心 si(SoftIRQ)直接被打满到了 100%。

    抓取热点函数 perf top -a,霸榜的调用链异常清晰:

      18.52%  [kernel]  [k] nf_hook_slow
      15.21%  [kernel]  [k] ip_rcv
      12.33%  [kernel]  [k] kmem_cache_alloc
      10.14%  [kernel]  [k] __netif_receive_skb_core
    

    典型的 CC 攻击/恶意扫段特征。大量无效的小包涌入,虽然在 iptables/Netfilter 层面配置了 DROP 规则,但由于 iptables 挂载在 PREROUTING 等 Hook 点,数据包走到这里时,内核已经为每一个包分配了 sk_buff 结构体,并走完了复杂的 L2 和 L3 早期协议栈处理

    在动辄几百万 PPS 的冲击下,频繁的 kmem_cache_alloc 和 Netfilter 规则链遍历直接榨干了 CPU。我们需要在更底层“掐断”这些流量。

    为什么 XDP 能在千万级 PPS 下实现防刷降级?

    常规的数据包接收路径是:网卡 -> DMA 拷贝到 Ring Buffer -> 触发硬中断 -> NAPI 轮询拉取 -> 分配 sk_buff -> __netif_receive_skb_core -> 网络协议栈 (Netfilter/IP/TCP 等)。

    XDP(eXpress Data Path)之所以快,根本原因在于它的 Hook 点位于 网络驱动层分配 sk_buff 之前。 当网卡通过 DMA 将数据放入内存后,XDP BPF 程序直接读取这段连续的原始内存(xdp_md),如果是恶意包,直接返回 XDP_DROP,网卡驱动会原地回收页面。没有 skb 内存分配,没有协议栈解析,没有上下文切换。

    XDP 黑名单拦截实战代码

    我们使用 BPF Map 来维护一个高频攻击 IP 黑名单,在 XDP 层直接匹配并丢弃。 以下是精简后的核心 C 代码(xdp_drop.c):

    #include <linux/bpf.h>
    #include <linux/in.h>
    #include <linux/if_ether.h>
    #include <linux/if_packet.h>
    #include <linux/if_vlan.h>
    #include <linux/ip.h>
    #include <bpf/bpf_helpers.h>
    
    // 定义一个 BPF Hash Map 存储黑名单 IP
    struct {
        __uint(type, BPF_MAP_TYPE_HASH);
        __uint(max_entries, 10000);
        __type(key, __u32);   // IPv4 Address
        __type(value, __u32); // Drop counter
    } blacklist SEC(".maps");
    
    SEC("xdp")
    int xdp_drop_prog(struct xdp_md *ctx) {
        void *data_end = (void *)(long)ctx->data_end;
        void *data = (void *)(long)ctx->data;
    
        // 边界检查(必须,否则 eBPF 验证器会拒绝加载)
        struct ethhdr *eth = data;
        if ((void *)(eth + 1) > data_end)
            return XDP_PASS;
    
        if (eth->h_proto != __constant_htons(ETH_P_IP))
            return XDP_PASS;
    
        struct iphdr *iph = data + sizeof(struct ethhdr);
        if ((void *)(iph + 1) > data_end)
            return XDP_PASS;
    
        __u32 src_ip = iph->saddr;
    
        // 查询黑名单 Map
        __u32 *value = bpf_map_lookup_elem(&blacklist, &src_ip);
        if (value) {
            __sync_fetch_and_add(value, 1); // 原子递增拦截计数
            return XDP_DROP; // 核心:在驱动层直接丢弃
        }
    
        return XDP_PASS;
    }
    
    char _license[] SEC("license") = "GPL";
    

    编译与挂载:

    # 使用 clang 编译成 BPF 字节码
    clang -O2 -target bpf -c xdp_drop.c -o xdp_drop.o
    
    # 将 XDP 程序挂载到网卡 eth0 (推荐 Native 模式,如果网卡驱动支持)
    ip link set dev eth0 xdp obj xdp_drop.o sec xdp
    
    # 查看挂载状态
    ip link show eth0
    # 输出会包含: prog/xdp id 123 tag xxxxxxx
    

    此时再用 bpftool map 动态向 blacklist 中写入恶意 IP,被拦截的流量完全不会在 CPU si 中泛起波澜,系统 Load 瞬间恢复。

    丢包排查:用 bpftrace 追踪 kfree_skb 黑盒

    在上述流量清洗的过程中,常会遇到业务方反馈:“我的包明明发过去了,为什么网关没收到?”。此时,如果是协议栈内部某处静默丢包(如 MTU 不匹配、TCP 状态机异常、连接跟踪满),用 tcpdump 是看不出所以然的。

    内核丢弃数据包最终都会调用 kfree_skbconsume_skb(正常释放)。利用 eBPF 追踪 kfree_skb 是降维打击。

    在 Kernel 5.15 下,可以直接使用 bpftrace 一行命令定位丢包的确切内核调用栈:

    # 捕获 10 秒内所有因非正常原因丢包的内核栈并统计次数
    bpftrace -e '
    tracepoint:skb:kfree_skb {
        // args->reason 在 5.1x 较新内核引入,可直接区分丢包原因
        @[kstack] = count();
    }
    '
    

    如果你的内核支持 skb_drop_reason(Kernel 5.17+ 完善),甚至可以直接打印出人类可读的丢包枚举值。 在我们的排查过程中,通过上述命令输出了如下聚合栈:

    @[
        kfree_skb+1
        tcp_v4_rcv+1452
        ip_protocol_deliver_rcu+54
        ip_local_deliver_finish+108
        __netif_receive_skb_one_core+138
        process_backlog+164
        __napi_poll+42
        net_rx_action+582
    ]: 2450
    

    一针见血,包是在 tcp_v4_rcv 中被丢弃的。结合代码和偏移量,立刻定位到是处于 TIME_WAIT 状态的 socket 堆积,导致 PAWS(Protect Against Wrapped Sequence numbers)校验失败,触发了静默丢包。调整 net.ipv4.tcp_tw_reuse 和时间戳设置后,问题迎刃而解。没有 eBPF,这个问题在海量流量下排查至少需要拔几根头发。

    常见问题 (FAQ)

    Q1:XDP 有 Native 和 Generic 两种模式,性能差异多大? Native 模式下,XDP BPF 代码直接嵌入在网卡驱动的 NAPI poll 循环中执行,性能极高(线速丢包可达 10M~20M PPS)。而 Generic 模式(xdpgeneric)是作为回退方案,挂载在 sk_buff 分配之后、协议栈处理之前,性能大打折扣,失去了 XDP “零分配”的核心优势。实战中,如果网卡驱动(如 ixgbe, i40e, mlx5)支持,务必使用 Native 模式(xdpdrv)。

    Q2:加载 XDP 字节码时报错 bpf verifier errors,提示越界访问,怎么解决? eBPF 内核验证器(Verifier)极其严格,采用“防御性加载”策略。如果你在 C 代码中解析 IP 头部,但没有在使用指针前做边界检查(例如 if ((void *)(iph + 1) > data_end) return XDP_PASS;),验证器会认为该程序可能引发 Kernel Panic 并拒绝加载。必须为每一次网络包头部偏移读取增加严格的 data_end 边界校验。

    Q3:网关已经部署了 Cilium (基于 eBPF/XDP),我自己挂载的 XDP 会冲突吗? 会冲突。一个网卡的 RX 队列在同一时间点通常只能挂载一个 XDP 程序。如果强制挂载,后者的会覆盖前者,导致 Cilium 的网络路由与策略失效。在较新的内核中可以使用 libxdp 提供的多程序链(Multi-prog dispatcher)机制,将多个 XDP 程序按优先级串联(如将你的防刷 XDP 作为优先级最高的程序执行,如果 XDP_PASS,再交由 Cilium 的 XDP 程序处理)。

    Q4:为什么不用 TC (Traffic Control) BPF 做拦截? TC BPF 也是极好的网络控制点(支持 Ingress 和 Egress 双向),且能获取完整的 skb 上下文,功能比 XDP 更丰富(比如修改包长、克隆重定向)。但 TC Hook 点位于 skb 分配之后。如果你的首要目标是应对 L3/L4 层的洪水攻击或极限压榨 CPU 性能,选 XDP;如果是做复杂的流量整形、七层之前的深度负载均衡,选 TC。