Qué ocurrió

Meta sigue promocionando Llama a empresas que no pondrán datos de clientes en una API pública compartida, necesitan hacer fine-tuning en su propio texto o necesitan documentación que trace de dónde vinieron los pesos. Las historias de socios últimamente todas dan en el mismo punto: Llama maneja generación, otro servicio maneja embeddings y rerank (Cohere aparece aquí, o un stack in-house), y una capa de política se sienta entre el modelo y las llamadas a herramientas. El trivia de benchmarks apenas surge. La gente habla sobre latencia dentro de una VPC, si el costo mensual es predecible, y si los ingenieros pueden shippear cambios de prompt sin esperar en el tren de lanzamientos de un vendor.

Por qué importa

Los pilotos regulados usualmente se atascan en ingeniería y política, no porque el modelo base no pueda escribir un correo cortés. Residencia de datos, retención de logs y quién puede tocar pesos de producción es donde se deslizan los calendarios. Correr pesos abiertos le da a procurement una imagen más simple: tú hostas los pesos, tú ownas la inferencia, y puedes cablear el modelo a Stripe para dinero, GitHub para código y bases de conocimiento internas a través de conectores estilo MCP sin que un vendor sea dueño de cada tier. Así es como equipos maduros ya dividen bases de datos, identidad y observabilidad. Tratar esas piezas como arquitectura, no accesorios, es el punto.

Impacto en el directorio

Los equipos comparando APIs cloud de clase Gemini con Llama auto-alojado frecuentemente corren ambos. Cloud para iteración rápida; pesos abiertos para workloads con límites más estrictos. El trabajo empresarial con LLM todavía significa código legacy, ETL frágil y APIs medio documentadas. Refactorizar en pasos pequeños con pruebas supera otro proyecto de integración que nunca alcanza producción. Verás más write-ups sobre calidad de retrieval, arneses de eval e incident playbooks que sobre recuentos de parámetros brutos.

Qué observar a continuación

Los SLAs alrededor del manejo de datos de fine-tuning necesitan volverse específicos. El Q&A de compliance en dominios regulados necesita suites de eval que los equipos puedan reutilizar en lugar de reinventar. Los protocolos de herramientas necesitan mantenerse aburridos e interoperables para que los puentes MCP no se conviertan en la siguiente capa de pegamento frágil. Cuando la inferencia VPC, logging encriptado y revisión humana para acciones riesgosas se conviertan en un conjunto pequeño de recetas bien probadas, el salto de demo a producción auditada se acorta. Hasta entonces, cada programa todavía hand-rolls la mitad del stack.