Skill Entry

错误预算策略(SRE)

依据 Google SRE Workbook 的 error budget policy:用 SLI/SLO 量化对用户承诺的可靠性,将允许的失败额度转化为发布节奏与风险治理规则,避免仅靠直觉讨论「要不要停发版」。

分类 运营
平台 任何工程团队
发布时间 2026-05-11
sresloreliability

使用场景

  • 反复故障后决定是否冻结高风险发布
  • 产品与基础设施协商上线窗口
  • 可观测错误快速消耗预算时优先做加固
  • 向管理层解释为何需等待预算恢复

主要功能

  • 选定与用户旅程一致的 SLI(成功率、延迟、新鲜度等)
  • 设定 SLO 并在滚动窗口内计算错误预算
  • 为预算消耗制定动作:收紧变更、暂停发布或 fixit
  • 配置 burn rate 告警以提前预警
  • 每季度复盘并随架构/承诺调整 SLO

相关推荐

相关推荐

3 收录条目