DeepSeek V4 深度研究报告
一句话定义
DeepSeek V4 是深度求索(DeepSeek)于2026年4月24日发布的第四代大语言模型,采用混合专家(MoE)架构,首次将100万token上下文窗口作为标准配置,以极低的推理成本实现了与GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro同级别的性能表现。
一、纵向分析:从DeepSeek-V1到V4的演进
1.1 起源:深度求索的诞生
深度求索(DeepSeek)由量化投资巨头幻方量化(High-Flyer Capital)于2023年创立,总部位于杭州。幻方量化是国内头部量化基金,管理规模曾超千亿人民币,其核心团队在大规模分布式训练和高性能计算方面有深厚积累。
2023年11月,DeepSeek发布首个开源模型DeepSeek-V1,参数规模67B,采用标准稠密Transformer架构。彼时国内大模型赛道已经拥挤——百度文心一言、阿里通义千问、智谱GLM等先行者已占据市场认知。DeepSeek选择了一条差异化路线:不做闭源商业化,而是走开源+学术的道路,所有模型权重和技术报告全部公开。
这个决策在当时看起来并不明智。开源意味着放弃直接的商业变现,而大模型训练需要巨额资金投入。但幻方量化的量化投资背景给了DeepSeek一个独特优势——他们对”用更少资源做更多事”有天然的敏感度,这在后来的每一次架构创新中都体现得淋漓尽致。
1.2 V2阶段:MoE架构的突破
2024年5月,DeepSeek-V2发布,这是该团队真正引起全球关注的转折点。V2引入了两个关键创新:
DeepSeekMoE架构:不同于传统MoE(如Switch Transformer)将专家简单分组,DeepSeekMoE提出了”细粒度专家分割”和”共享专家隔离”策略。具体来说,它将每个专家拆分为更小的单元,同时设置少量共享专家处理通用知识,其余路由专家处理特定领域。这种设计让模型在保持稀疏激活(只激活部分专家)的同时,大幅提升了专家利用率。
Multi-head Latent Attention (MLA):这是V2最核心的创新。传统多头注意力(MHA)的KV缓存随序列长度线性增长,是长上下文推理的主要瓶颈。MLA通过低秩联合压缩KV缓存,将每个token的KV存储从O(n·d)降低到远小于这个量级,同时保持甚至提升了模型性能。
V2的定价策略同样激进:API价格仅为当时GPT-4 Turbo的约1/100。这个定价不是烧钱补贴,而是架构创新带来的真实成本优势——MoE只激活部分参数,MLA压缩了KV缓存,两者叠加让推理成本断崖式下降。
1.3 V3阶段:全面追赶闭源前沿
2024年12月,DeepSeek-V3发布,参数规模跃升至671B(37B激活),预训练使用14.8T token。V3在V2的基础上做了多项改进:
- 无辅助损失负载均衡:传统MoE用辅助损失函数强制专家负载均衡,但这会损害模型性能。V3引入了一种无需辅助损失的负载均衡机制,通过动态偏置项实现专家间的均匀分配。
- Multi-Token Prediction (MTP):训练时同时预测多个后续token,提升了训练效率和推理时的推测解码速度。
- FP8混合精度训练:在保持训练稳定性的同时大幅降低了显存需求。
V3的性能已经接近GPT-4o和Claude 3.5 Sonnet,而训练成本仅为后者的约1/20(据DeepSeek称约557万美元)。这个数字震惊了整个行业——它证明了中国团队完全有能力用远低于硅谷巨头的预算,训练出同级别的模型。
1.4 V3.1到V3.2:持续迭代
2025年上半年,DeepSeek陆续发布了V3.1和V3.2,主要改进集中在推理能力和长上下文处理上。V3.2引入了初步的稀疏注意力机制,为后来V4的百万上下文奠定了基础。
1.5 V4阶段:百万上下文普惠时代
2026年4月24日,DeepSeek-V4正式发布。官方公告标题为”DeepSeek-V4 预览版:迈入百万上下文普惠时代”,直接点明了这次发布的核心主题。
V4不是一次渐进式升级,而是架构层面的重大革新。它带来了两个变体:
| DeepSeek-V4-Flash | DeepSeek-V4-Pro | |
|---|---|---|
| 总参数 | 284B | 1.6T |
| 激活参数 | 13B | 49B |
| 上下文长度 | 100万token | 100万token |
| 最大输出 | 38.4万token | 38.4万token |
| 预训练数据 | 32T token | 32T token |
| 许可证 | MIT | MIT |
两个模型都支持思考模式(thinking mode)和非思考模式,默认开启思考模式。API层面支持JSON输出、工具调用、Chat前缀补全和FIM补全(仅非思考模式)。
架构层面的核心创新:
混合注意力机制(Hybrid Attention):V4将压缩稀疏注意力(CSA, Compressed Sparse Attention)与重度压缩注意力(HCA, Heavily Compressed Attention)相结合。CSA负责在稀疏模式下选择性地关注关键token,HCA则对token维度进行压缩。两者的组合使得在100万token上下文下的推理FLOPs仅为V3.2的27%,KV缓存仅为V3.2的10%。
流形约束超连接(Manifold-Constrained Hyper-Connections, mHC):这是一种新的层间连接方式,通过在流形空间中约束信息流动,提升了深层网络的训练稳定性和表达能力。
Muon优化器:V4采用了Muon优化器进行训练,这是一种针对大规模MoE模型设计的优化器,在训练效率和收敛速度上优于传统的AdamW。
量化策略:MoE专家参数使用FP4量化,其他参数使用FP8。这种差异化量化策略在保持模型质量的同时,进一步降低了推理成本。
1.6 关键决策的回溯
回顾DeepSeek从V1到V4的发展历程,有几个关键决策深刻塑造了今天的局面:
选择开源路线:在2023年大模型创业潮中,几乎所有中国团队都选择了闭源商业化。DeepSeek选择开源,表面上放弃了直接变现,实际上建立了强大的技术品牌和开发者生态。V2的MLA论文被广泛引用,V3的训练成本数据成为行业标杆,这些都为V4的发布积累了巨大的势能。
押注MoE架构:从V2开始就坚定走MoE路线,而非跟随GPT系列的稠密架构。MoE的稀疏激活特性天然适合降低成本,这让DeepSeek在定价上始终保持着对闭源竞品的数量级优势。
持续投入架构创新而非单纯堆参数:V2的MLA、V3的无辅助损失负载均衡、V4的混合注意力——每一次迭代都有原创性的架构贡献,而非简单地扩大模型规模。这种”用巧劲”的风格与幻方量化的量化投资基因一脉相承。
二、横向分析:竞争图谱
2.1 竞品识别与定位
DeepSeek V4处于大语言模型竞争最激烈的赛道。主要竞品包括:
| 竞品 | 发布方 | 最新版本 | 架构 | 上下文 | 开源 |
|---|---|---|---|---|---|
| GPT-5.4 | OpenAI | 2026年Q1 | 未公开 | 未公开 | 否 |
| Claude Opus 4.6 | Anthropic | 2026年Q1 | 未公开 | 200K | 否 |
| Gemini 3.1 Pro | 2026年Q1 | 未公开 | 200万+ | 否 | |
| Qwen 3.6 | 阿里巴巴 | 2026年Q1 | MoE | 128K | 部分 |
| DeepSeek V4 | 深度求索 | 2026年4月24日 | MoE | 100万 | 是(MIT) |
2.2 性能对比:基准测试全面分析
2.2.1 基座模型对比
在基座模型(无指令微调)层面,V4-Pro在几乎所有基准测试上都显著超越了前代V3.2:
| 基准测试 | V3.2-Base | V4-Flash-Base | V4-Pro-Base | 提升幅度 |
|---|---|---|---|---|
| MMLU (5-shot) | 87.8 | 88.7 | 90.1 | +2.3 |
| MMLU-Pro (5-shot) | 65.5 | 68.3 | 73.5 | +8.0 |
| HumanEval (0-shot) | 62.8 | 69.5 | 76.8 | +14.0 |
| GSM8K (8-shot) | 91.1 | 90.8 | 92.6 | +1.5 |
| MATH (4-shot) | 60.5 | 57.4 | 64.5 | +4.0 |
| SimpleQA (25-shot) | 28.3 | 30.1 | 55.2 | +26.9 |
| GPQA SuperGPQA (5-shot) | 45.0 | 46.5 | 53.9 | +8.9 |
| LongBench-V2 (1-shot) | 40.2 | 44.7 | 51.5 | +11.3 |
最引人注目的是SimpleQA(简单问答)从28.3飙升到55.2,几乎翻倍。这说明V4在世界知识的存储和检索能力上有了质的飞跃,很可能与32T token的预训练数据量和新的注意力机制有关。HumanEval(代码生成)从62.8到76.8的提升同样显著,表明V4在代码理解能力上的大幅进步。
V4-Flash虽然参数量远小于V4-Pro(284B vs 1.6T),但在多数基准上已经超越了V3.2-Base,这证明了V4架构本身的效率优势。
2.2.2 指令模型:与闭源前沿的正面交锋
这是最核心的对比。V4-Pro-Max(最大推理预算)与当前最强闭源模型的对决:
| 基准测试 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High | V4-Pro Max |
|---|---|---|---|---|
| MMLU-Pro | 89.1 | 87.5 | 91.0 | 87.5 |
| SimpleQA-Verified | 46.2 | 45.3 | 75.6 | 57.9 |
| Chinese-SimpleQA | 76.4 | 76.8 | 85.9 | 84.4 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.1 |
| HLE | 40.0 | 39.8 | 44.4 | 37.7 |
| LiveCodeBench | 88.8 | — | 91.7 | 93.5 🏆 |
| Codeforces | — | 3168 | 3052 | 3206 🏆 |
| HMMT 2026 | 96.2 | 97.7 | 94.7 | 95.2 |
| IMOAnswerBench | 75.3 | 91.4 | 81.0 | 89.8 |
| SWE Verified | 80.8 | — | 80.6 | 80.6 |
| SWE Pro | 57.3 | 57.7 | 54.2 | 55.4 |
| BrowseComp | 83.7 | 82.7 | 85.9 | 83.4 |
| MCPAtlas Public | 73.8 | 67.2 | 69.2 | 73.6 |
| MRCR 1M | 92.9 | — | 76.3 | 83.5 |
代码能力:V4-Pro的王牌。 LiveCodeBench 93.5分超越了所有竞品,Codeforces Rating 3206同样位居第一。这是一个开源模型首次在编程基准上全面超越闭源前沿。DeepSeek在官方公告中也特别强调,V4-Pro在Agent编程场景中的内部使用体验”优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式”。
知识与推理:仍有差距。 MMLU-Pro 87.5落后于Gemini 3.1 Pro的91.0和Opus 4.6的89.1。GPQA Diamond 90.1同样低于两个主要竞品。HLE(人类最后考试)37.7是四项中最低的。这说明V4在需要深度知识储备和复杂推理的场景中,与闭源前沿仍有可感知的差距。
中文能力:接近顶尖。 Chinese-SimpleQA 84.4仅落后Gemini 3.1 Pro的85.9,在中文场景中表现优异。
长上下文:显著进步但非最强。 MRCR 1M(百万token多轮检索)83.5大幅超越Gemini 3.1 Pro的76.3,但落后于Opus 4.6的92.9。考虑到V4是首个将百万上下文作为标配的开源模型,这个成绩已经相当亮眼。
2.3 定价对比:成本优势的量化
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 |
|---|---|---|---|
| V4-Flash | $0.028/M | $0.14/M | $0.28/M |
| V4-Pro | $0.145/M | $1.74/M | $3.48/M |
| GPT-5.4(参考) | — | ~$10/M | ~$30/M |
| Opus 4.6(参考) | — | ~$15/M | ~$75/M |
V4-Flash的输出价格仅为$0.28/M token,大约是GPT-5.4的1/100、Opus 4.6的1/270。即使是V4-Pro,输出价格$3.48/M也仅为GPT-5.4的约1/9。
这种定价策略延续了DeepSeek一贯的风格:用架构创新带来的成本优势,在价格上形成碾压。对于高频调用的Agent场景和大规模数据处理场景,V4-Flash的成本优势是决定性的。
2.4 用户视角:真实使用体验
DeepSeek V4在发布当天(2026年4月24日)就已经在chat.deepseek.com上线,同时适配了Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent工具。
从官方公告中的内部使用反馈来看:
- Agent编程:V4-Pro在简单任务上与V4-Flash表现相当,但在复杂任务上差距明显。对于需要多步推理和代码生成的Agent场景,推荐使用V4-Pro的思考模式(reasoning_effort=max)。
- 思考模式:V4提供了三个推理档位——非思考(快速)、思考High、思考Max。官方建议复杂Agent场景使用Max档位。
- API兼容性:同时支持OpenAI格式(
https://api.deepseek.com)和Anthropic格式(https://api.deepseek.com/anthropic),降低了迁移成本。
2.5 生态位分析
DeepSeek V4在竞争格局中占据了一个独特的生态位:
开源最强:V4-Pro是目前性能最强的开源大语言模型,MIT许可证意味着完全自由使用,包括商业用途。这对于无法使用闭源API的企业和研究机构来说,是极具吸引力的选择。
性价比之王:V4-Flash以极低的价格提供了接近V4-Pro的推理能力,适合对成本敏感的大规模应用场景。
Agent生态的基础设施:V4对主流Agent工具的原生适配,加上百万上下文窗口,使其成为构建复杂AI Agent系统的理想底座。
当前格局呈现”三强+开源追赶”的态势:Gemini 3.1 Pro在知识和推理上领先,GPT-5.4在数学和复杂推理上强势,Opus 4.6在长上下文和代码质量上表现突出,而V4-PRO则在编程基准上实现了开源模型的首次超越。
三、横纵交汇洞察
3.1 历史如何塑造了今天的竞争位置
DeepSeek从V1到V4的演进路径,本质上是一个”用工程效率对抗资源规模”的故事。幻方量化的量化投资基因——追求alpha、控制风险、优化成本——被完整地移植到了大模型研发中。
V2的MLA解决了KV缓存的效率问题,V3的无辅助损失负载均衡解决了MoE的训练稳定性问题,V4的混合注意力解决了百万上下文的推理成本问题。每一次架构创新都指向同一个方向:用更少的计算资源做更多的事。这种一以贯之的技术路线,让DeepSeek在成本维度上始终保持着对闭源竞品的数量级优势。
而开源策略则在另一个维度上建立了护城河。当V2的MLA论文被全球研究者引用、V3的训练成本数据成为行业基准时,DeepSeek已经不再只是一个模型提供商,而是成为了大模型技术进步的公共基础设施。V4发布时HuggingFace上1.72k的点赞和115条评论,证明了这种技术品牌的号召力。
3.2 优势与劣势的历史根源
编程能力的领先并非偶然。DeepSeek从V2开始就在代码数据的清洗和配比上投入了大量精力,V3引入的Multi-Token Prediction对代码生成有天然的增益(代码的局部结构化特征使得多token预测更有效),V4的32T token预训练数据中代码占比的进一步提升,最终在LiveCodeBench和Codeforces上开花结果。
知识储备的差距则可能与训练数据的多样性有关。Gemini 3.1 Pro在SimpleQA-Verified上以75.6大幅领先V4-Pro的57.9,这暗示Google在训练数据的广度和质量上仍有优势。V4的32T token虽然总量巨大,但在某些知识密集型领域的覆盖可能不如Google的多模态数据管线。
百万上下文的实现是V4最具战略意义的突破。100万token的上下文窗口意味着模型可以一次性处理整本书籍、完整的代码仓库、或数小时的对话记录。这对于Agent场景——需要模型持续维护大量上下文状态——是质的改变。V4在100万token下的推理FLOPs仅为V3.2的27%,KV缓存仅为10%,这个效率提升使得百万上下文从”理论上可行”变成了”实际可用”。
3.3 未来推演
最可能的剧本:开源生态加速追赶。 V4的MIT许可证和Agent工具适配将加速开源模型在生产环境中的采用。预计未来6个月内,基于V4构建的Agent应用将大量涌现,开源与闭源的性能差距将进一步缩小。V4-Flash的超低定价可能引发一轮价格战,迫使闭源厂商下调API价格。
最危险的剧本:地缘政治风险。 DeepSeek作为中国AI公司,面临着美国出口管制和芯片限制的持续压力。V4使用的FP4量化和大规模MoE架构对计算资源的需求依然巨大,如果芯片供应进一步受限,可能影响后续版本的迭代速度。此外,中美AI竞争的升温可能导致某些国际市场对DeepSeek模型的采用受限。
最乐观的剧本:成为全球AI基础设施。 如果DeepSeek能持续保持架构创新的速度,同时维护好开源生态,V4及后续版本有可能成为全球AI应用的默认底座——就像Linux之于服务器、Android之于移动设备。百万上下文+超低成本+MIT许可证的组合,为AI的大规模普及扫清了关键障碍。
四、信息来源
- DeepSeek官方公告:”DeepSeek-V4 预览版:迈入百万上下文普惠时代”,https://www.deepseek.com/,访问时间:2026年4月24日
- DeepSeek API文档:https://api-docs.deepseek.com/,访问时间:2026年4月24日
- HuggingFace模型卡:https://huggingface.co/collections/deepseek-ai/deepseek-v4,访问时间:2026年4月24日
- ModelScope模型集合:https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4,访问时间:2026年4月24日
- 技术报告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf,访问时间:2026年4月24日