Modelos de peso abierto hospedados vía REST y SDKs oficiales en Python / TypeScript
Together AI ofrece una plataforma para ejecutar modelos abiertos destacados desde GPUs hospedadas por Together. La documentación se centra en emitir API keys, instalar el SDK Python (`together`) o npm (`together-ai`) o llamar HTTPS como `https://api.together.ai/v1/chat/completions` con Bearer. Las guías cubren completions con streaming, llamadas a función, salidas estructuradas y descubrir modelos, además de reservas de GPU y fine tuning descritos en la jerarquía ampliada de docs.
Casos de uso
- Operar backends de chat o agentes sobre checkpoints hospedados sin flota GPU propia
- Prototipar llamadas a herramientas con modelos listados por Together
- Migrar de pruebas curl a SDK tipado por manejar reintentos y telemetría
- Evaluar SKU de fine tuning o endpoints dedicados tras validar carga inicial
- Enseñar HTTP estilo OpenAI cambiando solo el modelo por entradas del catálogo Together
Funciones principales
- Flujos quickstart para Python y TypeScript usando API keys en variables de entorno (`TOGETHER_API_KEY`)
- Endpoints REST tipo chat completions con payloads JSON compatibles estilo OpenAI mostrados en quickstart
- Streaming con `stream=True` en Python e iteradores async en TypeScript según muestras oficiales
- Área funcional amplia según índice: catálogo de modelos, clusters GPU y fine tuning dedicado/reservado
- Enlaces documentados entre consola de facturación, proyectos (`api.together.ai`) y selección de modelo
Relacionados
Relacionados
3 Entradas indexadas
Replicate
Replicate es una plataforma hospedada para ejecutar modelos de machine learning propios y de terceros vía HTTP sin aprovisionar GPUs manualmente. La documentación oficial explica cómo autenticarse con tokens, crear predicciones asíncronas, hacer streaming de salidas, obtener metadatos de modelos, conectar webhooks de finalización y, opcionalmente, desplegar o afinizar checkpoints publicados en el catálogo (incluye guías públicas tipo FLUX).
Groq Cloud API
GroqCloud expone cargas de trabajo de lenguaje, voz y sistemas compuestos mediante las APIs HTTP de Groq. La documentación destaca compatibilidad con bibliotecas cliente de OpenAI al usar `base_url` en el endpoint compatible con OpenAI y una clave de Groq, además de SDK propios en Python y JavaScript. Las páginas de precios publican tarifas por modelo en USD para inferencia bajo demanda.
Hugging Face Hub
Hugging Face opera Hugging Face Hub—un punto central para explotar y alojar artefactos de ML—y Spaces para demos, más documentación para invocar modelos mediante APIs HTTP con tokens de acceso gestionados en la cuenta. La documentación oficial describe creación de tokens (`Settings → Access Tokens`), uso de Git LFS, versionado de repos e inferencia vía Inference Providers/documentación serverless enlazada desde huggingface.co.