Qué ocurrió
La Realtime API de OpenAI hizo speech-to-speech con audio en streaming y llamadas a herramientas prácticas en una sesión. Los equipos ahora están preguntando operaciones planas: cómo almacenar transcripciones de manera segura, cuándo hacer handoff a un humano y cómo probar paths de voz como REST APIs. La fase de "wow" está fading; compliance y uptime no son.
Por qué importa
Los agentes de voz tienden a fallar en temas mundanos: permisos de herramientas vagos, rate limits faltantes, nadie es dueño del pager cuando algo se rompe. Tiendas que ya corren Slack, browser MCPs y depuración estructurada tratan voz como otra superficie sobre el mismo stack, no un demo separado.
Impacto en el directorio
Esto toca asistentes clase ChatGPT, herramientas de UI ligeras como v0 cuando necesitas un shell web, y MCPs que anclan agentes en sistemas reales. Las habilidades de depuración e incident response importan más cuando la latencia de voz convierte pequeños errores en outages visibles para el cliente.
Qué observar a continuación
Las reglas de grabación de sesión, dónde puede almacenarse audio por región y los harneses de eval estándar para voz se intensificarán. Los budgets de herramientas por sesión claros de vendors acelerarían la adopción empresarial; sin ellos, cada equipo inventa su propio dialecto de política.