Despliega una nueva versión a un pequeño porcentaje de tráfico de producción primero, monitorea error budgets y latencia contra línea base y automáticamente amplía o hace rollback basado en criterios pre-definidos. Esto mantiene el blast radius de un mal deployment pequeño: particularmente importante cuando agentes de IA están modificando pipelines de deployment donde un solo mal comando podría afectar a muchos usuarios.
Casos de uso
- Rolling out una actualización de dependencia riesgosa donde quieres señales tempranas antes de comprometerte con el deployment completo
- Desplegando una nueva versión de modelo de IA o cambio de prompt que podría afectar la calidad de respuesta de maneras sutiles
- Deployments de viernes donde quieres limitar exposición sobre el fin de semana cuando menos ingenieros están disponibles
- Un feature flag toggle para una funcionalidad de alto tráfico donde quieres validar rendimiento antes de la audiencia completa
- Desplegando cambios de infraestructura (nueva versión de base de datos, nueva capa de caching) donde las diferencias de comportamiento no son obvias en staging
Funciones principales
- Antes de cambiar cualquier tráfico, define métricas de éxito: tasa de error, latencia p99 y cualquier métrica de calidad de modelo apropiada para el cambio
- Fija el slice inicial de canary a un subconjunto pequeño y representativo de tráfico: típicamente 1-5% de requests y enrútalo a la nueva versión
- Monitorea las métricas de éxito continuamente por los primeros 30-60 minutos y compara contra la línea base de la versión estable anterior
- Si las métricas se mantienen dentro de límites aceptables, amplía automáticamente a 25%, luego 50%, luego 100% en un schedule pre-definido; si las métricas degradan, haz rollback automático a la versión anterior
- Después del rollout completo, confirma que las métricas permanecen estables por al menos un día laboral completo antes de considerar el deployment completo
Relacionados
Relacionados
3 Entradas indexadas
Observability baselines
Establece golden signals (latencia, tráfico, errores, saturación), ventanas de SLO y checks de dashboard antes de que los agentes automaticen deployments para que 'healthy' y 'degraded' tengan definiciones medibles en lugar de interpretaciones subjetivas. Esto es esencial cuando agentes de IA están manageando deploys porque los agentes necesitan métricas objetivas para tomar decisiones, no gut feelings de humanos.
Postmortem writing
Captura la línea de tiempo completa del incidente, blast radius, factores contribuyentes y acciones de seguimiento concretas después de incidentes de producción para que los equipos construyan memoria institucional en lugar de repetir las mismas sorpresas. Un postmortem bien escrito separa causa raíz de triggers, evita culpa y produce action items rastreados que previenen recurrencia.
Agentic coding vendor readiness review
Convierte guías de fiabilidad de plataforma y agentes de codificación multi-proveedor en una lista antes de estandarizar un stack de IA para código: inventariar SLAs del host SCM (incidentes en githubstatus.com), comparar agentes primarios/reserva (Copilot, Cursor, Claude Code, Codex), verificar observabilidad con Braintrust u otras trazas, y ensayar flujos cuando el host o la API del agente fallen. Cita páginas de estado y cambios de facturación públicos (p. ej. Copilot por uso en github.blog).