P

Skill Entry

Production debugging

Diagnostica incidentes de producción live usando triage de logs, correlación de spikes de métricas, filtering de ventana de deployment y pasos de reproducción seguros sin causar mayor disrupción. Production debugging aplica principios de depuración sistemática en un entorno live donde el costo de acciones wrongas es alto y la habilidad de reproducir el issue es limitada.

Categoría debugging
Plataforma Codex / Claude Code
Fecha de publicación 2026-04-25
debuggingproductionincident-response

Casos de uso

  • Un servicio de repente retornando errores 5xx para un porcentaje de requests con ningún deploy de código en la última hora
  • Fuga de memoria sospechada donde el uso de heap crece gradualmente sobre días hasta que el servicio restart o degrada
  • Latency spike en producción donde la latencia p99 se duplicó para un endpoint específico sin causa obvia
  • Un fallo intermitente que ocurre durante tráfico peak pero no durante off-peak, sugiriendo un issue de resource contention
  • Una degradación de dependencia de terceros causando fallos en cascada en tu servicio cuando tu proveedor upstream está lento o retornando errores

Funciones principales

  • Check dashboards de tasa de error y latencia para el servicio afectado, identificando la ventana del spike y qué endpoints u operaciones están degradadas
  • Filtra logs por servicio, severidad y ventana de tiempo, buscando patrones de excepción, tipos de error inusuales o mensajes que solo aparecen durante la ventana del incidente
  • Correlaciona el incidente con deployments recientes: verifica qué versión está corriendo, si hubo un deploy en las últimas horas y cómo se veían las métricas base antes del deploy
  • Check salud de servicios upstream y downstream: fallos upstream a menudo hacen cascade downstream y un latency spike en una dependencia puede manifestarse como un error en tu servicio
  • Identifica una reproducción mínima: una sola request de curl o script pequeño que reproduce el fallo sin side effects, permitiéndote verificar el fix antes de desplegar
  • Abre una rama de fix nunca en producción, aplica el fix mínimo, verifica que la reproducción ya no se activa, luego sigue el proceso estándar de deployment con monitoreo de canary
  • Confirma que las métricas vuelven a la línea base después del deployment antes de marcar el incidente resuelto y archivar el reporte de investigación de seguimiento

Relacionados

Relacionados

3 Entradas indexadas