Convierte la documentación de enrutamiento de LiteLLM en una lista de verificación previa al paso a producción de rutas multi-despliegue: confirmar listas primarias/fallback, reintentos y balanceo según docs.litellm.ai/docs/routing, validar claves virtuales y límites de gasto si el tráfico pasa por LiteLLM Proxy, y ensayar caídas de proveedor observando excepciones mapeadas a OpenAI. Incluye activar `store_model_in_db` cuando persistan MCP y verificar nombres de servidor MCP conformes a SEP-986 citados desde LiteLLM v1.80.18.
Casos de uso
- Asistente cliente nuevo con riesgo de rate limit
- Migración a Router con fallback Anthropic/Bedrock
- Revisión antes de MCP Gateway para IDEs
- Ejercicio DR trimestral de dependencias LLM
- Optimización de coste con modelo secundario
Funciones principales
- Inventariar despliegues: model_name, proveedor, región, rol primario o fallback.
- Documentar reintentos, timeouts y cooldown según YAML/SDK sin suposiciones.
- Probar fallo controlado del primario y confirmar cambio al fallback documentado.
- Si hay Proxy, verificar presupuestos, guardrails y dashboards de gasto.
- Con MCP, confirmar flags de DB y nombres SEP-986 antes de conceder acceso.
- Registrar resultados en tabla de sign-off con latencia y riesgos abiertos.
Relacionados
Relacionados
3 Entradas indexadas
Example SLO document authoring
Operacionaliza el Apéndice A del libro de trabajo de Google SRE reinterpretando la carpeta ficticia del “Example Game Service” como checklist ejecutable: redactar el trabajo visible para usuarios; fijar ventanas móviles (ej. cuatro semanas); emparejar subsistemas con SLIs bien definidas (disponibilidad excluyendo 5xx, latencias con cortes ms, freshness de tablas derivadas, corrección vía probes, cobertura de pipelines); exponer texto num/denom; fundamentar redondeos; derivar presupuestos de error objetivo‑a‑objetivo y enlazar la política de presupuesto de errores correlativa.
Error budget policy drafting
Adapta el ejemplo de política de presupuesto de errores del workbook de Google en una guía repetible para ligar el ritmo de releases a la fiabilidad medida: define objetivos (proteger a usuarios de fallos repetidos de SLO preservando incentivos de innovación), detalla qué ocurre cuando la ventana móvil agota el presupuesto (congelar cambios salvo defectos urgentes o trabajo de seguridad), codifica umbrales de investigación por outage y documenta escalamiento cuando hay desacuerdo sobre el cálculo del presupuesto.
Incident response
Proceso estructurado para manejar incidentes de producción desde detección hasta resolución y post-mortem. Cubre evaluación de severidad usando gradación P0-P3, coordinación de equipo con un incident commander designado, plantillas de comunicación para interesados y usuarios, y requisitos de post-mortem estructurados para impulsar aprendizaje organizacional de cada outage significativo.