README
# 稳定性与可靠性系列
熔断、限流、容灾、幂等——生产环境不挂机的工程防线
# 系列导读
性能优化让系统跑得快,稳定性工程让系统不挂机。本系列从 SLA/SLO/SLI 度量体系出发,覆盖熔断降级、限流策略、容灾多活、故障演练、幂等重试、分布式锁、容量规划等核心课题。
学习路径建议:
度量体系 防御手段 实战验证
┌────────────┐ ┌──────────────┐ ┌──────────────┐
│ 01.全景图 │───>│ 02.熔断降级 │───>│ 05.故障演练 │
│ 08.容量规划 │ │ 03.限流策略 │ │ 06.幂等与重试 │
└────────────┘ │ 04.容灾多活 │ │ 07.分布式锁 │
└──────────────┘ └──────────────┘
1
2
3
4
5
6
2
3
4
5
6
# 文档目录
| 编号 | 文档 | 核心内容 | 难度 |
|---|---|---|---|
| 01 | 稳定性全景图概述 | SLA/SLO/SLI、稳定性四维度、度量体系建设 | ⭐⭐ |
| 02 | 熔断降级设计实战 | 熔断器状态机、Hystrix/Sentinel 原理、半开探测 | ⭐⭐⭐ |
| 03 | 限流策略设计实战 | 令牌桶/漏桶/滑动窗口、Nginx/网关层落地 | ⭐⭐⭐ |
| 04 | 容灾与多活设计 | 同城双活/异地多活、数据同步、流量切换 | ⭐⭐⭐⭐ |
| 05 | 故障演练实战指南 | 混沌工程、故障注入、红蓝对抗、GameDay | ⭐⭐⭐ |
| 06 | 幂等与重试机制 | 幂等键设计、消息重试策略、死信队列 | ⭐⭐⭐ |
| 07 | 分布式锁深度剖析 | Redlock/etcd/Zookeeper、锁安全与性能对比 | ⭐⭐⭐ |
| 08 | 容量规划方法论 | 压测模型、水位线评估、弹性伸缩策略 | ⭐⭐⭐ |
# 学习方法
延续疑惑→分析→论证→结论范式:
- 疑惑:从线上故障切入(服务雪崩、流量尖刺、数据不一致)
- 分析:拆解故障根因,定位是架构问题还是容量问题
- 论证:对比多种方案的成本、收益、副作用
- 结论:形成可落地的防御体系 Checklist
上次更新: 2026/06/07, 19:03:35