用 Truss、Model APIs 与 OpenAI 兼容端点训练、部署并提供模型推理服务
Baseten 在 docs.baseten.co 文档化训练与推理平台:团队可通过开源 Truss 框架部署模型,或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎;truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。
使用场景
- 无需 Dockerfile 发布 Hugging Face LLM
- Model APIs 原型后上线微调权重
- 复用 OpenAI SDK 仅换 base URL
- predict 中写自定义逻辑
- 对比 TensorRT-LLM 与 PyTorch 基线
主要功能
- Truss config.yaml 部署受支持的开源 LLM
- 引擎化部署提供 OpenAI 兼容 API
- model.py 自定义 predict 逻辑
- development 与 production 晋升路径
- Model APIs 无需私有部署即可调用
相关推荐
相关推荐
3 收录条目
Fireworks AI
Fireworks AI 提供 REST API 调用语言/图像/embedding 模型;支持 serverless 目录模型与专属 GPU 部署 custom base model 及 LoRA;默认不记录 prompt/输出(见文档例外)。
RunPod
RunPod 在 docs.runpod.io 提供无服务器 GPU 平台:用 Runpod SDK 编写 handler、Docker 部署,经 api.runpod.ai/v2/{ENDPOINT_ID}/runsync 调用,Bearer RUNPOD_API_KEY 鉴权;含 Pods 持久 GPU 与 REST API。
Together AI
Together AI 为开发者提供在托管 GPU 上运行主流开源模型的推理与训练类产品线。入门文档介绍在控制台创建 API Key、导出 `TOGETHER_API_KEY`、安装 Python `together` 或 npm `together-ai`,以及向 `https://api.together.ai/v1/chat/completions` 发起带 Bearer 鉴权的 HTTPS 调用;并可按文档扩展到流式输出、函数调用、结构化输出、模型目录、专用算力预留与微调等专题。