DeepSeek V4 预览：1.6T 开源模型缩小与前沿差距

DeepSeek 发布了 DeepSeek V4 的两个预览版本。该公司声称，由于架构改进，两个模型都比 DeepSeek V3.2 更高效、性能更高，并在推理基准测试中几乎"缩小了"与当前前沿模型的差距。

两个版本：V4 Flash 和 V4 Pro

V4 系列分为两个版本，针对不同的成本和性能需求：

V4 Pro 是旗舰版本 — 总参数 1.6 万亿，推理时激活 490 亿参数，是目前可用的最大开源模型。它采用混合专家架构，对任何给定 token 只激活部分模型，在保持推理成本可控的同时实现了巨大的总参数规模。

V4 Flash 是高效版本 — 总参数 2840 亿，激活 130 亿参数。它的运营成本显著低于 V4 Pro，在需要 GPT-5 级别推理能力的大规模生产部署中是更经济的选择。

两个模型都支持 100 万 token 的上下文窗口 — 这是目前所有开源模型中最长的 — 使其适用于需要跨长文档或代码库进行推理的任务。

基准测试表现

DeepSeek 自己的基准测试显示，V4 模型在推理任务、代码生成和数学问题解决方面优于所有开源竞争对手。在编程竞赛基准测试中，DeepSeek 估计 V4 性能"与 GPT-5.4 相当"。在某些单项推理任务上，V4 超越了 OpenAI 的 GPT-5.2 和 Google 的 Gemini 3.0 Pro。

与前沿模型（GPT-5.4 和 Gemini 3.1 Pro）的差距，DeepSeek 估计约为 3 至 6 个月。在知识密集型测试中，V4 仍然落后于前沿模型，DeepSeek 将其归因于训练数据整理的差异，而非架构限制。

价格

API 定价将 V4 Flash 定位为高端机型的经济替代方案：

模型	输入（每百万 token）	输出（每百万 token）
V4 Flash	$0.14	$0.28
V4 Pro	$0.145	$3.48

V4 Pro 输入和输出价格差距较大，反映了推理和扩展思维链计算成本之间的差异。

对 AI 编程和 Agent 工作流的影响

100 万 token 的上下文窗口与 AI 辅助编程尤为相关。需要在超大型代码库中理解代码、审查大量差异或跨长会话维护上下文的任务，现在可以在不截断上下文的情况下完成。结合混合专家架构保持较低激活参数数的优势，V4 Flash 特别适合作为需要强推理能力但成本敏感的编码助手集成方案。

在编码任务上的基准测试表现也使 V4 成为需要以前依赖前沿模型 API 的 AI 编码 Agent 后端候选方案。

可用性

两个模型均通过 DeepSeek API 提供，预览版本可通过 Web 和移动应用访问。V4 Pro 的开源权重预计在后续版本中发布。

两个版本：V4 Flash 和 V4 Pro

基准测试表现

价格

对 AI 编程和 Agent 工作流的影响

可用性

相关 AI工具

DeepSeek

ChatGPT

Gemini

相关 Skills

AI 成本优化

评测与基准

继续阅读