依据 Google SRE Workbook 的 error budget policy:用 SLI/SLO 量化对用户承诺的可靠性,将允许的失败额度转化为发布节奏与风险治理规则,避免仅靠直觉讨论「要不要停发版」。
使用场景
- 反复故障后决定是否冻结高风险发布
- 产品与基础设施协商上线窗口
- 可观测错误快速消耗预算时优先做加固
- 向管理层解释为何需等待预算恢复
主要功能
- 选定与用户旅程一致的 SLI(成功率、延迟、新鲜度等)
- 设定 SLO 并在滚动窗口内计算错误预算
- 为预算消耗制定动作:收紧变更、暂停发布或 fixit
- 配置 burn rate 告警以提前预警
- 每季度复盘并随架构/承诺调整 SLO
相关推荐
相关推荐
3 收录条目