一句话定义

DeepSeek V4 是深度求索(DeepSeek)于2026年4月24日发布的第四代大语言模型,采用混合专家(MoE)架构,首次将100万token上下文窗口作为标准配置,以极低的推理成本实现了与GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro同级别的性能表现。


一、纵向分析:从DeepSeek-V1到V4的演进

1.1 起源:深度求索的诞生

深度求索(DeepSeek)由量化投资巨头幻方量化(High-Flyer Capital)于2023年创立,总部位于杭州。幻方量化是国内头部量化基金,管理规模曾超千亿人民币,其核心团队在大规模分布式训练和高性能计算方面有深厚积累。

2023年11月,DeepSeek发布首个开源模型DeepSeek-V1,参数规模67B,采用标准稠密Transformer架构。彼时国内大模型赛道已经拥挤——百度文心一言、阿里通义千问、智谱GLM等先行者已占据市场认知。DeepSeek选择了一条差异化路线:不做闭源商业化,而是走开源+学术的道路,所有模型权重和技术报告全部公开。

这个决策在当时看起来并不明智。开源意味着放弃直接的商业变现,而大模型训练需要巨额资金投入。但幻方量化的量化投资背景给了DeepSeek一个独特优势——他们对”用更少资源做更多事”有天然的敏感度,这在后来的每一次架构创新中都体现得淋漓尽致。

1.2 V2阶段:MoE架构的突破

2024年5月,DeepSeek-V2发布,这是该团队真正引起全球关注的转折点。V2引入了两个关键创新:

DeepSeekMoE架构:不同于传统MoE(如Switch Transformer)将专家简单分组,DeepSeekMoE提出了”细粒度专家分割”和”共享专家隔离”策略。具体来说,它将每个专家拆分为更小的单元,同时设置少量共享专家处理通用知识,其余路由专家处理特定领域。这种设计让模型在保持稀疏激活(只激活部分专家)的同时,大幅提升了专家利用率。

Multi-head Latent Attention (MLA):这是V2最核心的创新。传统多头注意力(MHA)的KV缓存随序列长度线性增长,是长上下文推理的主要瓶颈。MLA通过低秩联合压缩KV缓存,将每个token的KV存储从O(n·d)降低到远小于这个量级,同时保持甚至提升了模型性能。

V2的定价策略同样激进:API价格仅为当时GPT-4 Turbo的约1/100。这个定价不是烧钱补贴,而是架构创新带来的真实成本优势——MoE只激活部分参数,MLA压缩了KV缓存,两者叠加让推理成本断崖式下降。

1.3 V3阶段:全面追赶闭源前沿

2024年12月,DeepSeek-V3发布,参数规模跃升至671B(37B激活),预训练使用14.8T token。V3在V2的基础上做了多项改进:

  • 无辅助损失负载均衡:传统MoE用辅助损失函数强制专家负载均衡,但这会损害模型性能。V3引入了一种无需辅助损失的负载均衡机制,通过动态偏置项实现专家间的均匀分配。
  • Multi-Token Prediction (MTP):训练时同时预测多个后续token,提升了训练效率和推理时的推测解码速度。
  • FP8混合精度训练:在保持训练稳定性的同时大幅降低了显存需求。

V3的性能已经接近GPT-4o和Claude 3.5 Sonnet,而训练成本仅为后者的约1/20(据DeepSeek称约557万美元)。这个数字震惊了整个行业——它证明了中国团队完全有能力用远低于硅谷巨头的预算,训练出同级别的模型。

1.4 V3.1到V3.2:持续迭代

2025年上半年,DeepSeek陆续发布了V3.1和V3.2,主要改进集中在推理能力和长上下文处理上。V3.2引入了初步的稀疏注意力机制,为后来V4的百万上下文奠定了基础。

1.5 V4阶段:百万上下文普惠时代

2026年4月24日,DeepSeek-V4正式发布。官方公告标题为”DeepSeek-V4 预览版:迈入百万上下文普惠时代”,直接点明了这次发布的核心主题。

V4不是一次渐进式升级,而是架构层面的重大革新。它带来了两个变体:

  DeepSeek-V4-Flash DeepSeek-V4-Pro
总参数 284B 1.6T
激活参数 13B 49B
上下文长度 100万token 100万token
最大输出 38.4万token 38.4万token
预训练数据 32T token 32T token
许可证 MIT MIT

两个模型都支持思考模式(thinking mode)和非思考模式,默认开启思考模式。API层面支持JSON输出、工具调用、Chat前缀补全和FIM补全(仅非思考模式)。

架构层面的核心创新:

混合注意力机制(Hybrid Attention):V4将压缩稀疏注意力(CSA, Compressed Sparse Attention)与重度压缩注意力(HCA, Heavily Compressed Attention)相结合。CSA负责在稀疏模式下选择性地关注关键token,HCA则对token维度进行压缩。两者的组合使得在100万token上下文下的推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。

流形约束超连接(Manifold-Constrained Hyper-Connections, mHC):这是一种新的层间连接方式,通过在流形空间中约束信息流动,提升了深层网络的训练稳定性和表达能力。

Muon优化器:V4采用了Muon优化器进行训练,这是一种针对大规模MoE模型设计的优化器,在训练效率和收敛速度上优于传统的AdamW。

量化策略:MoE专家参数使用FP4量化,其他参数使用FP8。这种差异化量化策略在保持模型质量的同时,进一步降低了推理成本。

1.6 关键决策的回溯

回顾DeepSeek从V1到V4的发展历程,有几个关键决策深刻塑造了今天的局面:

选择开源路线:在2023年大模型创业潮中,几乎所有中国团队都选择了闭源商业化。DeepSeek选择开源,表面上放弃了直接变现,实际上建立了强大的技术品牌和开发者生态。V2的MLA论文被广泛引用,V3的训练成本数据成为行业标杆,这些都为V4的发布积累了巨大的势能。

押注MoE架构:从V2开始就坚定走MoE路线,而非跟随GPT系列的稠密架构。MoE的稀疏激活特性天然适合降低成本,这让DeepSeek在定价上始终保持着对闭源竞品的数量级优势。

持续投入架构创新而非单纯堆参数:V2的MLA、V3的无辅助损失负载均衡、V4的混合注意力——每一次迭代都有原创性的架构贡献,而非简单地扩大模型规模。这种”用巧劲”的风格与幻方量化的量化投资基因一脉相承。


二、横向分析:竞争图谱

2.1 竞品识别与定位

DeepSeek V4处于大语言模型竞争最激烈的赛道。主要竞品包括:

竞品 发布方 最新版本 架构 上下文 开源
GPT-5.4 OpenAI 2026年Q1 未公开 未公开
Claude Opus 4.6 Anthropic 2026年Q1 未公开 200K
Gemini 3.1 Pro Google 2026年Q1 未公开 200万+
Qwen 3.6 阿里巴巴 2026年Q1 MoE 128K 部分
DeepSeek V4 深度求索 2026年4月24日 MoE 100万 是(MIT)

2.2 性能对比:基准测试全面分析

2.2.1 基座模型对比

在基座模型(无指令微调)层面,V4-Pro在几乎所有基准测试上都显著超越了前代V3.2:

基准测试 V3.2-Base V4-Flash-Base V4-Pro-Base 提升幅度
MMLU (5-shot) 87.8 88.7 90.1 +2.3
MMLU-Pro (5-shot) 65.5 68.3 73.5 +8.0
HumanEval (0-shot) 62.8 69.5 76.8 +14.0
GSM8K (8-shot) 91.1 90.8 92.6 +1.5
MATH (4-shot) 60.5 57.4 64.5 +4.0
SimpleQA (25-shot) 28.3 30.1 55.2 +26.9
GPQA SuperGPQA (5-shot) 45.0 46.5 53.9 +8.9
LongBench-V2 (1-shot) 40.2 44.7 51.5 +11.3

最引人注目的是SimpleQA(简单问答)从28.3飙升到55.2,几乎翻倍。这说明V4在世界知识的存储和检索能力上有了质的飞跃,很可能与32T token的预训练数据量和新的注意力机制有关。HumanEval(代码生成)从62.8到76.8的提升同样显著,表明V4在代码理解能力上的大幅进步。

V4-Flash虽然参数量远小于V4-Pro(284B vs 1.6T),但在多数基准上已经超越了V3.2-Base,这证明了V4架构本身的效率优势。

2.2.2 指令模型:与闭源前沿的正面交锋

这是最核心的对比。V4-Pro-Max(最大推理预算)与当前最强闭源模型的对决:

基准测试 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High V4-Pro Max
MMLU-Pro 89.1 87.5 91.0 87.5
SimpleQA-Verified 46.2 45.3 75.6 57.9
Chinese-SimpleQA 76.4 76.8 85.9 84.4
GPQA Diamond 91.3 93.0 94.3 90.1
HLE 40.0 39.8 44.4 37.7
LiveCodeBench 88.8 91.7 93.5 🏆
Codeforces 3168 3052 3206 🏆
HMMT 2026 96.2 97.7 94.7 95.2
IMOAnswerBench 75.3 91.4 81.0 89.8
SWE Verified 80.8 80.6 80.6
SWE Pro 57.3 57.7 54.2 55.4
BrowseComp 83.7 82.7 85.9 83.4
MCPAtlas Public 73.8 67.2 69.2 73.6
MRCR 1M 92.9 76.3 83.5

代码能力:V4-Pro的王牌。 LiveCodeBench 93.5分超越了所有竞品,Codeforces Rating 3206同样位居第一。这是一个开源模型首次在编程基准上全面超越闭源前沿。DeepSeek在官方公告中也特别强调,V4-Pro在Agent编程场景中的内部使用体验”优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式”。

知识与推理:仍有差距。 MMLU-Pro 87.5落后于Gemini 3.1 Pro的91.0和Opus 4.6的89.1。GPQA Diamond 90.1同样低于两个主要竞品。HLE(人类最后考试)37.7是四项中最低的。这说明V4在需要深度知识储备和复杂推理的场景中,与闭源前沿仍有可感知的差距。

中文能力:接近顶尖。 Chinese-SimpleQA 84.4仅落后Gemini 3.1 Pro的85.9,在中文场景中表现优异。

长上下文:显著进步但非最强。 MRCR 1M(百万token多轮检索)83.5大幅超越Gemini 3.1 Pro的76.3,但落后于Opus 4.6的92.9。考虑到V4是首个将百万上下文作为标配的开源模型,这个成绩已经相当亮眼。

2.3 定价对比:成本优势的量化

模型 输入(缓存命中) 输入(缓存未命中) 输出
V4-Flash $0.028/M $0.14/M $0.28/M
V4-Pro $0.145/M $1.74/M $3.48/M
GPT-5.4(参考) ~$10/M ~$30/M
Opus 4.6(参考) ~$15/M ~$75/M

V4-Flash的输出价格仅为$0.28/M token,大约是GPT-5.4的1/100、Opus 4.6的1/270。即使是V4-Pro,输出价格$3.48/M也仅为GPT-5.4的约1/9。

这种定价策略延续了DeepSeek一贯的风格:用架构创新带来的成本优势,在价格上形成碾压。对于高频调用的Agent场景和大规模数据处理场景,V4-Flash的成本优势是决定性的。

2.4 用户视角:真实使用体验

DeepSeek V4在发布当天(2026年4月24日)就已经在chat.deepseek.com上线,同时适配了Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent工具。

从官方公告中的内部使用反馈来看:

  • Agent编程:V4-Pro在简单任务上与V4-Flash表现相当,但在复杂任务上差距明显。对于需要多步推理和代码生成的Agent场景,推荐使用V4-Pro的思考模式(reasoning_effort=max)。
  • 思考模式:V4提供了三个推理档位——非思考(快速)、思考High、思考Max。官方建议复杂Agent场景使用Max档位。
  • API兼容性:同时支持OpenAI格式(https://api.deepseek.com)和Anthropic格式(https://api.deepseek.com/anthropic),降低了迁移成本。

2.5 生态位分析

DeepSeek V4在竞争格局中占据了一个独特的生态位:

开源最强:V4-Pro是目前性能最强的开源大语言模型,MIT许可证意味着完全自由使用,包括商业用途。这对于无法使用闭源API的企业和研究机构来说,是极具吸引力的选择。

性价比之王:V4-Flash以极低的价格提供了接近V4-Pro的推理能力,适合对成本敏感的大规模应用场景。

Agent生态的基础设施:V4对主流Agent工具的原生适配,加上百万上下文窗口,使其成为构建复杂AI Agent系统的理想底座。

当前格局呈现”三强+开源追赶”的态势:Gemini 3.1 Pro在知识和推理上领先,GPT-5.4在数学和复杂推理上强势,Opus 4.6在长上下文和代码质量上表现突出,而V4-PRO则在编程基准上实现了开源模型的首次超越。


三、横纵交汇洞察

3.1 历史如何塑造了今天的竞争位置

DeepSeek从V1到V4的演进路径,本质上是一个”用工程效率对抗资源规模”的故事。幻方量化的量化投资基因——追求alpha、控制风险、优化成本——被完整地移植到了大模型研发中。

V2的MLA解决了KV缓存的效率问题,V3的无辅助损失负载均衡解决了MoE的训练稳定性问题,V4的混合注意力解决了百万上下文的推理成本问题。每一次架构创新都指向同一个方向:用更少的计算资源做更多的事。这种一以贯之的技术路线,让DeepSeek在成本维度上始终保持着对闭源竞品的数量级优势。

而开源策略则在另一个维度上建立了护城河。当V2的MLA论文被全球研究者引用、V3的训练成本数据成为行业基准时,DeepSeek已经不再只是一个模型提供商,而是成为了大模型技术进步的公共基础设施。V4发布时HuggingFace上1.72k的点赞和115条评论,证明了这种技术品牌的号召力。

3.2 优势与劣势的历史根源

编程能力的领先并非偶然。DeepSeek从V2开始就在代码数据的清洗和配比上投入了大量精力,V3引入的Multi-Token Prediction对代码生成有天然的增益(代码的局部结构化特征使得多token预测更有效),V4的32T token预训练数据中代码占比的进一步提升,最终在LiveCodeBench和Codeforces上开花结果。

知识储备的差距则可能与训练数据的多样性有关。Gemini 3.1 Pro在SimpleQA-Verified上以75.6大幅领先V4-Pro的57.9,这暗示Google在训练数据的广度和质量上仍有优势。V4的32T token虽然总量巨大,但在某些知识密集型领域的覆盖可能不如Google的多模态数据管线。

百万上下文的实现是V4最具战略意义的突破。100万token的上下文窗口意味着模型可以一次性处理整本书籍、完整的代码仓库、或数小时的对话记录。这对于Agent场景——需要模型持续维护大量上下文状态——是质的改变。V4在100万token下的推理FLOPs仅为V3.2的27%,KV缓存仅为10%,这个效率提升使得百万上下文从”理论上可行”变成了”实际可用”。

3.3 未来推演

最可能的剧本:开源生态加速追赶。 V4的MIT许可证和Agent工具适配将加速开源模型在生产环境中的采用。预计未来6个月内,基于V4构建的Agent应用将大量涌现,开源与闭源的性能差距将进一步缩小。V4-Flash的超低定价可能引发一轮价格战,迫使闭源厂商下调API价格。

最危险的剧本:地缘政治风险。 DeepSeek作为中国AI公司,面临着美国出口管制和芯片限制的持续压力。V4使用的FP4量化和大规模MoE架构对计算资源的需求依然巨大,如果芯片供应进一步受限,可能影响后续版本的迭代速度。此外,中美AI竞争的升温可能导致某些国际市场对DeepSeek模型的采用受限。

最乐观的剧本:成为全球AI基础设施。 如果DeepSeek能持续保持架构创新的速度,同时维护好开源生态,V4及后续版本有可能成为全球AI应用的默认底座——就像Linux之于服务器、Android之于移动设备。百万上下文+超低成本+MIT许可证的组合,为AI的大规模普及扫清了关键障碍。


四、信息来源

  1. DeepSeek官方公告:”DeepSeek-V4 预览版:迈入百万上下文普惠时代”,https://www.deepseek.com/,访问时间:2026年4月24日
  2. DeepSeek API文档:https://api-docs.deepseek.com/,访问时间:2026年4月24日
  3. HuggingFace模型卡:https://huggingface.co/collections/deepseek-ai/deepseek-v4,访问时间:2026年4月24日
  4. ModelScope模型集合:https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4,访问时间:2026年4月24日
  5. 技术报告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf,访问时间:2026年4月24日