Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.
Casos de uso
- Un servicio de producción está completamente caído y los usuarios no pueden acceder a la funcionalidad core
- Un outage parcial afectando un subconjunto de usuarios, como una región específica o tier de usuario
- Degradación de rendimiento que dispara alerts automáticas pero aún no es un outage completo
- Un issue de integridad de datos donde datos incorrectos se están mostrando a los usuarios
- Un incidente de seguridad donde acceso no autorizado es sospechado o confirmado
Funciones principales
- Evalúa la severidad y asigna un grado: P0 para outage completo, P1 para funcionalidad major rota, P2 para experiencia degradada, P3 para issue menor con workarounds disponibles
- Declara el incidente en el canal designado con severidad, descripción de impacto y tu nombre como incident commander, luego ensambla el equipo de respuesta
- Comienza mitigación inmediatamente: rollback del último deployment, deshabilita un feature flag o activa un circuit breaker para restaurar servicio antes de investigar causa raíz
- Comunica el status a usuarios afectados vía la página de status dentro de los 15 minutos de la declaración y proporciona actualizaciones a intervalos regulares hasta resolución
- Investiga la causa raíz en paralelo con monitoreo, usando dashboards y logs estructurados en lugar de especulación sobre qué podría haber cambiado
- Cuando el servicio es restaurado, actualiza la página de status inmediatamente y programa una reunión de post-mortem dentro de 48 horas con todas las partes involucradas
- Escribe el documento de post-mortem cubriendo la línea de tiempo completa, análisis de causa raíz, factores contribuyentes y action items concretos con owners y deadlines
Relacionados
Relacionados
3 Entradas indexadas
Content refresh
Ejecuta una auditoría programada de entries existentes de herramientas, MCP, skills y noticias para identificar y abordar precios stale, links de documentación rotos, capacidades desactualizadas y prosa debilitada que silenciosamente degrada la calidad del directorio. Este ritmo de mantenimiento previene que el directorio acumule digital rot a medida que las herramientas evolucionan y los entries se vuelven desactualizados.
Systematic debugging
Reemplaza la depuración de prueba-y-error con un proceso basado en hipótesis: formula una hipótesis refutable, construye la reproducción más pequeña posible y verifica la evidencia antes de tocar el código. Este enfoque estructurado es más valioso durante incidentes de producción, builds de CI inestables y regresiones confusas donde la depuración intuitiva desperdicia horas en síntomas correlacionados pero no causales.
AI cost optimization
Audita uso de tokens, selección de modelos, estrategia de caching y compresión de prompts para prevenir costos de inferencia descontrolados a medida que las funcionalidades de IA escalan. Esto es especialmente importante para workflows agentic de alto volumen donde llamadas repetidas se compounding rápidamente y donde la brecha entre una implementación bien optimizada y una descuidada puede ser de órdenes de magnitud en costo.