Modelos de peso abierto hospedados vía REST y SDKs oficiales en Python / TypeScript

Together AI ofrece una plataforma para ejecutar modelos abiertos destacados desde GPUs hospedadas por Together. La documentación se centra en emitir API keys, instalar el SDK Python (`together`) o npm (`together-ai`) o llamar HTTPS como `https://api.together.ai/v1/chat/completions` con Bearer. Las guías cubren completions con streaming, llamadas a función, salidas estructuradas y descubrir modelos, además de reservas de GPU y fine tuning descritos en la jerarquía ampliada de docs.

Categoría Herramientas para desarrolladores

Precio Usage-based inference + optional dedicated endpoints / fine-tuning (see Together pricing docs)

Plataformas Web / API / Python / Node.js

inferenceapiopen-source-models

Casos de uso

Operar backends de chat o agentes sobre checkpoints hospedados sin flota GPU propia
Prototipar llamadas a herramientas con modelos listados por Together
Migrar de pruebas curl a SDK tipado por manejar reintentos y telemetría
Evaluar SKU de fine tuning o endpoints dedicados tras validar carga inicial
Enseñar HTTP estilo OpenAI cambiando solo el modelo por entradas del catálogo Together

Funciones principales

Flujos quickstart para Python y TypeScript usando API keys en variables de entorno (`TOGETHER_API_KEY`)
Endpoints REST tipo chat completions con payloads JSON compatibles estilo OpenAI mostrados en quickstart
Streaming con `stream=True` en Python e iteradores async en TypeScript según muestras oficiales
Área funcional amplia según índice: catálogo de modelos, clusters GPU y fine tuning dedicado/reservado
Enlaces documentados entre consola de facturación, proyectos (`api.together.ai`) y selección de modelo

Relacionados

3 Entradas indexadas

Replicate

Herramientas para desarrolladoresPay-per-prediction bi…

Replicate es una plataforma hospedada para ejecutar modelos de machine learning propios y de terceros vía HTTP sin aprovisionar GPUs manualmente. La documentación oficial explica cómo autenticarse con tokens, crear predicciones asíncronas, hacer streaming de salidas, obtener metadatos de modelos, conectar webhooks de finalización y, opcionalmente, desplegar o afinizar checkpoints publicados en el catálogo (incluye guías públicas tipo FLUX).

Groq Cloud API

Herramientas para desarrolladoresFree + Paid

GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.

Baseten

Herramientas para desarrolladoresUsage-based inference…

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

Together AI