面向 GPU、沙箱、批处理与 LLM 推理的无服务器 Python 云

Modal 在 modal.com 文档化无服务器云：工程师用 Python 运行算力密集型任务而无需配置基础设施，可部署 OpenAI 兼容 LLM 服务、批处理工作流、任务队列、GPU 训练/微调，以及大规模隔离 Sandbox 执行 Agent 生成代码。官方指南通过 @app.function、modal.Image 与代码内 GPU 类型定义环境。按秒计费 serverless，并在多家云之间池化容量；除 Python 外还可经 JavaScript/Go 客户端调用。

分类开发者工具

价格按秒 serverless 计费（见 modal.com/pricing）

平台 Web / Python / JavaScript / Go

serverlessgpuinference

使用场景

不经 Kubernetes 托管开源 LLM 并追求较低冷启动
大规模并行批处理推理或数据任务
在最新 GPU 上经代码定义环境做微调
在 Sandbox 中运行编码 Agent
本地 modal run 原型后扩至生产 serverless 函数

主要功能

文档化的 @app.function 与代码级 GPU/镜像配置
LLM 推理、批处理、实时转写等示例
大规模安全 Sandbox 执行 AI 生成代码
秒级启动 GPU Notebook
介绍指南中的多云容量池

fal

开发者工具Serverless 按秒；Model A…

fal 在 fal.ai/docs 文档化无服务器平台：Python fal.App 与 @fal.endpoint 在 H100/A100/B200 自动扩缩 runner 上推理，或调用 1000+ Model APIs；fal run 测试、fal deploy 持久端点；含 setup、machine_type、鉴权、按秒 Serverless 与 Compute 按 GPU 小时计费及 Prometheus 指标。

RunPod

开发者工具Serverless 按秒计费；Pods …

RunPod 在 docs.runpod.io 提供无服务器 GPU 平台：用 Runpod SDK 编写 handler、Docker 部署，经 api.runpod.ai/v2/{ENDPOINT_ID}/runsync 调用，Bearer RUNPOD_API_KEY 鉴权；含 Pods 持久 GPU 与 REST API。

Baseten

开发者工具按用量计费推理与训练

Baseten 在 docs.baseten.co 文档化训练与推理平台：团队可通过开源 Truss 框架部署模型，或不经自建基础设施直接调用托管 Model APIs。仅 config.yaml 的 Truss 部署指向 Hugging Face 检查点、GPU 与 TensorRT-LLM 等引擎；truss push 构建优化容器并暴露 OpenAI 兼容端点。自定义架构在 model.py 中用 Model 类的 load/predict 实现。Model APIs 以 BASETEN_API_KEY 即时调用目录模型。

Modal

使用场景

主要功能

相关推荐

fal

RunPod

Baseten

相关资讯