Production debugging - Codex / Claude Code Skill

Diagnostica incidentes de producción live usando triage de logs, correlación de spikes de métricas, filtering de ventana de deployment y pasos de reproducción seguros sin causar mayor disrupción. Production debugging aplica principios de depuración sistemática en un entorno live donde el costo de acciones wrongas es alto y la habilidad de reproducir el issue es limitada.

Categoría Depuración

Plataforma Codex / Claude Code

Fecha de publicación 2026-04-25

debuggingproductionincident-response

Casos de uso

Un servicio de repente retornando errores 5xx para un porcentaje de requests con ningún deploy de código en la última hora
Fuga de memoria sospechada donde el uso de heap crece gradualmente sobre días hasta que el servicio restart o degrada
Latency spike en producción donde la latencia p99 se duplicó para un endpoint específico sin causa obvia
Un fallo intermitente que ocurre durante tráfico peak pero no durante off-peak, sugiriendo un issue de resource contention
Una degradación de dependencia de terceros causando fallos en cascada en tu servicio cuando tu proveedor upstream está lento o retornando errores

Funciones principales

Check dashboards de tasa de error y latencia para el servicio afectado, identificando la ventana del spike y qué endpoints u operaciones están degradadas
Filtra logs por servicio, severidad y ventana de tiempo, buscando patrones de excepción, tipos de error inusuales o mensajes que solo aparecen durante la ventana del incidente
Correlaciona el incidente con deployments recientes: verifica qué versión está corriendo, si hubo un deploy en las últimas horas y cómo se veían las métricas base antes del deploy
Check salud de servicios upstream y downstream: fallos upstream a menudo hacen cascade downstream y un latency spike en una dependencia puede manifestarse como un error en tu servicio
Identifica una reproducción mínima: una sola request de curl o script pequeño que reproduce el fallo sin side effects, permitiéndote verificar el fix antes de desplegar
Abre una rama de fix nunca en producción, aplica el fix mínimo, verifica que la reproducción ya no se activa, luego sigue el proceso estándar de deployment con monitoreo de canary
Confirma que las métricas vuelven a la línea base después del deployment antes de marcar el incidente resuelto y archivar el reporte de investigación de seguimiento

Relacionados

3 Entradas indexadas

LangSmith production trace investigation playbook

Depuración

Convierte la documentación de observabilidad de LangSmith en un flujo repetible para incidentes de LLM y agentes: partir de un run o thread fallido, usar la UI o herramientas MCP (`fetch_runs`, `get_thread_history`) para reconstruir prompts, llamadas a herramientas y errores, y acotar con filtros documentados (run_type, is_root, FQL filter/trace_filter/tree_filter) antes de cambiar código o prompts. Recuerda la paginación por presupuesto de caracteres (`page_number`, `total_pages`) y separar MCP remoto OAuth de Cloud frente a `LANGSMITH_ENDPOINT` self-hosted al recopilar evidencias.

Systematic debugging

Operaciones

Reemplaza la depuración de prueba-y-error con un proceso basado en hipótesis: formula una hipótesis refutable, construye la reproducción más pequeña posible y verifica la evidencia antes de tocar el código. Este enfoque estructurado es más valioso durante incidentes de producción, builds de CI inestables y regresiones confusas donde la depuración intuitiva desperdicia horas en síntomas correlacionados pero no causales.

Incident response

Operaciones

Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.