D

AI Tool

Deepgram

APIs STT en streaming con Nova-3 para subtítulos en vivo y Flux para agentes de voz

Deepgram documenta STT en developers.deepgram.com: WebSocket `/v1/listen` para transcripción en tiempo real (Nova-3, diarización y búsqueda según referencia) y `/v2/listen` para Flux conversacional con detección integrada de fin de turno. Los SDK ofrecen `deepgram.listen.v1.connect` y `listen.v2.connect`. La guía de comparación sitúa Flux en agentes de voz y Nova-3 en reuniones/IVR; hay guías de latencia y despliegue self-hosted de Flux en nodos dedicados.

Categoría Herramientas para desarrolladores
Precio Pay-as-you-go per audio minute; enterprise plans (see deepgram.com/pricing)
Plataformas Web / API / JavaScript / Python
speech-to-textstreamingvoice-agents

Casos de uso

  • Subtítulos y analítica de llamadas con Nova-3
  • Agentes de voz sin VAD separado
  • Comparar Flux vs Nova-3
  • Benchmark de latencia en producción
  • Flux on-prem

Funciones principales

  • Streaming `/v1/listen` con Nova-3
  • Flux en `/v2/listen` con eventos de turno
  • SDK v1/v2 connect para audio binario
  • Herramientas de medición de latencia EOT
  • Flux self-hosted con `/v2/listen`

Relacionados

Relacionados

3 Entradas indexadas

Groq Cloud API

Herramientas para desarrolladoresFree tier + Pay-as-you-go (published USD rates)

GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.

Fireworks AI

Herramientas para desarrolladoresServerless per-token pricing on fireworks.ai/pricing; dedicated deployments billed per GPU-second

Fireworks AI documenta en docs.fireworks.ai una plataforma REST para modelos de lenguaje, imagen y embeddings con claves Bearer desde el dashboard o firectl. Los modelos usan IDs globales accounts/<cuenta>/models/<id> y pueden servirse vía inferencia serverless (p. ej. Llama 3.1 70B) o despliegues GPU dedicados para modelos base custom y addons LoRA. La doc distingue facturación por token serverless con uptime best-effort de despliegues dedicados por GPU-segundo privados, y afirma que prompts/salidas no se registran salvo excepciones documentadas.

LangSmith

Herramientas para desarrolladoresFree developer tier plus paid Team/Enterprise plans (see LangSmith pricing docs)

LangSmith es la plataforma de LangChain (cloud o self-hosted) para trazar, monitorizar y mejorar aplicaciones LLM. La documentación en docs.langchain.com describe instrumentación mediante variables de entorno, integraciones de frameworks (OpenAI, Anthropic, CrewAI, Vercel AI SDK, Pydantic AI y otras listadas) o el SDK, de modo que equipos inspeccionen runs multipaso, comparen versiones de prompts, construyan datasets, ejecuten evaluaciones offline/online, automaticen flujos y recojan feedback sin analítica ad hoc para bucles de agentes.