DeepSeek 发布了 DeepSeek V4 的两个预览版本。该公司声称,由于架构改进,两个模型都比 DeepSeek V3.2 更高效、性能更高,并在推理基准测试中几乎"缩小了"与当前前沿模型的差距。

两个版本:V4 Flash 和 V4 Pro

V4 系列分为两个版本,针对不同的成本和性能需求:

V4 Pro 是旗舰版本 — 总参数 1.6 万亿,推理时激活 490 亿参数,是目前可用的最大开源模型。它采用混合专家架构,对任何给定 token 只激活部分模型,在保持推理成本可控的同时实现了巨大的总参数规模。

V4 Flash 是高效版本 — 总参数 2840 亿,激活 130 亿参数。它的运营成本显著低于 V4 Pro,在需要 GPT-5 级别推理能力的大规模生产部署中是更经济的选择。

两个模型都支持 100 万 token 的上下文窗口 — 这是目前所有开源模型中最长的 — 使其适用于需要跨长文档或代码库进行推理的任务。

基准测试表现

DeepSeek 自己的基准测试显示,V4 模型在推理任务、代码生成和数学问题解决方面优于所有开源竞争对手。在编程竞赛基准测试中,DeepSeek 估计 V4 性能"与 GPT-5.4 相当"。在某些单项推理任务上,V4 超越了 OpenAI 的 GPT-5.2 和 Google 的 Gemini 3.0 Pro。

与前沿模型(GPT-5.4 和 Gemini 3.1 Pro)的差距,DeepSeek 估计约为 3 至 6 个月。在知识密集型测试中,V4 仍然落后于前沿模型,DeepSeek 将其归因于训练数据整理的差异,而非架构限制。

价格

API 定价将 V4 Flash 定位为高端机型的经济替代方案:

模型 输入(每百万 token) 输出(每百万 token)
V4 Flash $0.14 $0.28
V4 Pro $0.145 $3.48

V4 Pro 输入和输出价格差距较大,反映了推理和扩展思维链计算成本之间的差异。

对 AI 编程和 Agent 工作流的影响

100 万 token 的上下文窗口与 AI 辅助编程尤为相关。需要在超大型代码库中理解代码、审查大量差异或跨长会话维护上下文的任务,现在可以在不截断上下文的情况下完成。结合混合专家架构保持较低激活参数数的优势,V4 Flash 特别适合作为需要强推理能力但成本敏感的编码助手集成方案。

在编码任务上的基准测试表现也使 V4 成为需要以前依赖前沿模型 API 的 AI 编码 Agent 后端候选方案。

可用性

两个模型均通过 DeepSeek API 提供,预览版本可通过 Web 和移动应用访问。V4 Pro 的开源权重预计在后续版本中发布。