兼容 OpenAI 客户端的快速推理 API(Groq 托管模型)
GroqCloud 通过 Groq 的 HTTP API 提供托管的语言与语音等推理能力;文档说明可将 OpenAI 兼容客户端指向 Groq 的 `base_url` 并使用 Groq API 密钥,亦提供 Groq 官方 Python/JavaScript SDK。定价页面以美元公示按 token 计费档位,便于预估推理成本。
使用场景
- 把现有 OpenAI 形态调用迁移到 Groq 托管推理
- 搭建延迟敏感的对话或 Agent 原型
- 批量离线推理(参见 Batch API 文档)
- 语音转写与文本推理链路拆分在不同托管模型上
- 团队培训 OpenAI 兼容接入范式
主要功能
- 兼容 OpenAI 形态的 REST:`https://api.groq.com/openai/v1`
- 官方 Groq SDK 与 OpenAI SDK 迁移说明并存档于控制台文档
- 多模型目录与 Playground,便于切换开源权重方案
- 官网 pricing 页面列出按百万 token 计的参考单价
- 文档说明 OpenAI 兼容层尚未支持的字段与限制
相关推荐
相关推荐
3 收录条目
Together AI
Together AI 为开发者提供在托管 GPU 上运行主流开源模型的推理与训练类产品线。入门文档介绍在控制台创建 API Key、导出 `TOGETHER_API_KEY`、安装 Python `together` 或 npm `together-ai`,以及向 `https://api.together.ai/v1/chat/completions` 发起带 Bearer 鉴权的 HTTPS 调用;并可按文档扩展到流式输出、函数调用、结构化输出、模型目录、专用算力预留与微调等专题。
Replicate
Replicate 提供面向开发者的托管机器学习推理平台,通过 HTTP API 与官方 Quickstart(Python、Node.js、Colab 等)调用公开或自发布模型。文档涵盖预测生命周期、流式输出、Webhook、速率与计费、模型目录检索,以及推送自定义模型与按指南进行图像等场景微调的路径。
OpenRouter
OpenRouter 提供与 OpenAI 风格兼容的统一 API,让团队可以在一个接入层上调用多家模型、对比成本与效果,并按场景调整路由策略,减少多供应商 SDK 维护成本。