STT, transcripción en streaming, Voice Agent API y LLM Gateway para flujos de voz

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

Categoría Herramientas para desarrolladores

Precio Pay-as-you-go per audio hour; enterprise plans (see assemblyai.com/pricing)

Plataformas Web / API / JavaScript / Python

speech-to-textstreamingvoice-agents

Casos de uso

Transcripción batch con Universal-3 Pro
Subtítulos en vivo
Agentes de voz con resumen LLM
PII con Guardrails
Residencia UE

Funciones principales

STT pregrabado con speech_models obligatorio
Streaming WebSocket
Voice Agent API speech-to-speech
Speech Understanding (diarización, sentimiento)
LLM Gateway multimodelo

Relacionados

3 Entradas indexadas

Deepgram

Herramientas para desarrolladoresPay-as-you-go per aud…

Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.

Fireworks AI

Herramientas para desarrolladoresServerless per-token …

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

NVIDIA NIM

Herramientas para desarrolladoresDeveloper Program hos…

NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.