Implementa la práctica SRE de Google que vincula la velocidad de producto con la fiabilidad medida: define un service-level objective (SLO), deriva un presupuesto de errores a partir de la indisponibilidad o eventos malos permitidos, y gobierna lanzamientos según el presupuesto restante. Esta skill operativiza la política de error budget del SRE Workbook para cuantificar trade-offs en lugar de discutir la fiabilidad solo por anecdótica.
Casos de uso
- Decidir congelar releases arriesgadas tras incidentes repetidos
- Negociar calendario de lanzamiento entre producto e infraestructura
- Priorizar endurecimiento cuando los errores visibles consumen presupuesto rápido
- Explicar por qué una feature espera hasta recuperar presupuesto
- Definir metas trimestrales alineadas con expectativas de clientes
Funciones principales
- Elegir SLIs de journeys reales (latencia, éxito, frescura), no solo métricas vanidosas
- Fijar SLO y calcular error budget como 100% menos el SLO en una ventana móvil
- Definir acciones por umbrales: endurecer cambios, parar lanzamientos o imponer fixits
- Instrumentar burn rate para reaccionar antes de agotar el presupuesto
- Revisar la política trimestralmente cuando promesa de producto o arquitectura cambien
Relacionados
Relacionados
3 Entradas indexadas
Git worktrees for isolation
Usa Git worktrees para crear directorios de trabajo aislados conectados al mismo repositorio, cada uno en una rama diferente, para que experimentos paralelos o tareas de larga ejecución no interfieran con el main working tree o requieran ciclos repetitivos de stash-and-reapply. Esto es especialmente útil cuando una rama requiere un build o test run pesado mientras el trabajo continúa en otra.
SEO audit for web properties
Diagnostica issues de indexing, crawlability y SEO on-page a través de un sitio completo usando crawls automatizados, checks de Lighthouse y output estructurado. Una auditoría SEO surfacea findings accionables rankeados por prioridad antes de la revisión manual, haciendo posible abordar issues críticos rápidamente en lugar de descubrirlos a través de drops de tráfico.
Canary rollouts
Despliega una nueva versión a un pequeño porcentaje de tráfico de producción primero, monitorea error budgets y latencia contra línea base y automáticamente amplía o hace rollback basado en criterios pre-definidos. Esto mantiene el blast radius de un mal deployment pequeño: particularmente importante cuando agentes de IA están modificando pipelines de deployment donde un solo mal comando podría afectar a muchos usuarios.