STT, transcripción en streaming, Voice Agent API y LLM Gateway para flujos de voz
AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.
Casos de uso
- Transcripción batch con Universal-3 Pro
- Subtítulos en vivo
- Agentes de voz con resumen LLM
- PII con Guardrails
- Residencia UE
Funciones principales
- STT pregrabado con speech_models obligatorio
- Streaming WebSocket
- Voice Agent API speech-to-speech
- Speech Understanding (diarización, sentimiento)
- LLM Gateway multimodelo
Relacionados
Relacionados
3 Entradas indexadas
Deepgram
Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.
Fireworks AI
Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.
NVIDIA NIM
NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.