DeepSeek V4 深度研究报告

一句话定义

DeepSeek V4 是深度求索（DeepSeek）于2026年4月24日发布的第四代大语言模型，采用混合专家（MoE）架构，首次将100万token上下文窗口作为标准配置，以极低的推理成本实现了与GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro同级别的性能表现。

一、纵向分析：从DeepSeek-V1到V4的演进

1.1 起源：深度求索的诞生

深度求索（DeepSeek）由量化投资巨头幻方量化（High-Flyer Capital）于2023年创立，总部位于杭州。幻方量化是国内头部量化基金，管理规模曾超千亿人民币，其核心团队在大规模分布式训练和高性能计算方面有深厚积累。

2023年11月，DeepSeek发布首个开源模型DeepSeek-V1，参数规模67B，采用标准稠密Transformer架构。彼时国内大模型赛道已经拥挤——百度文心一言、阿里通义千问、智谱GLM等先行者已占据市场认知。DeepSeek选择了一条差异化路线：不做闭源商业化，而是走开源+学术的道路，所有模型权重和技术报告全部公开。

这个决策在当时看起来并不明智。开源意味着放弃直接的商业变现，而大模型训练需要巨额资金投入。但幻方量化的量化投资背景给了DeepSeek一个独特优势——他们对”用更少资源做更多事”有天然的敏感度，这在后来的每一次架构创新中都体现得淋漓尽致。

1.2 V2阶段：MoE架构的突破

2024年5月，DeepSeek-V2发布，这是该团队真正引起全球关注的转折点。V2引入了两个关键创新：

DeepSeekMoE架构：不同于传统MoE（如Switch Transformer）将专家简单分组，DeepSeekMoE提出了”细粒度专家分割”和”共享专家隔离”策略。具体来说，它将每个专家拆分为更小的单元，同时设置少量共享专家处理通用知识，其余路由专家处理特定领域。这种设计让模型在保持稀疏激活（只激活部分专家）的同时，大幅提升了专家利用率。

Multi-head Latent Attention (MLA)：这是V2最核心的创新。传统多头注意力（MHA）的KV缓存随序列长度线性增长，是长上下文推理的主要瓶颈。MLA通过低秩联合压缩KV缓存，将每个token的KV存储从O(n·d)降低到远小于这个量级，同时保持甚至提升了模型性能。

V2的定价策略同样激进：API价格仅为当时GPT-4 Turbo的约1/100。这个定价不是烧钱补贴，而是架构创新带来的真实成本优势——MoE只激活部分参数，MLA压缩了KV缓存，两者叠加让推理成本断崖式下降。

1.3 V3阶段：全面追赶闭源前沿

2024年12月，DeepSeek-V3发布，参数规模跃升至671B（37B激活），预训练使用14.8T token。V3在V2的基础上做了多项改进：

无辅助损失负载均衡：传统MoE用辅助损失函数强制专家负载均衡，但这会损害模型性能。V3引入了一种无需辅助损失的负载均衡机制，通过动态偏置项实现专家间的均匀分配。
Multi-Token Prediction (MTP)：训练时同时预测多个后续token，提升了训练效率和推理时的推测解码速度。
FP8混合精度训练：在保持训练稳定性的同时大幅降低了显存需求。

V3的性能已经接近GPT-4o和Claude 3.5 Sonnet，而训练成本仅为后者的约1/20（据DeepSeek称约557万美元）。这个数字震惊了整个行业——它证明了中国团队完全有能力用远低于硅谷巨头的预算，训练出同级别的模型。

1.4 V3.1到V3.2：持续迭代

2025年上半年，DeepSeek陆续发布了V3.1和V3.2，主要改进集中在推理能力和长上下文处理上。V3.2引入了初步的稀疏注意力机制，为后来V4的百万上下文奠定了基础。

1.5 V4阶段：百万上下文普惠时代

2026年4月24日，DeepSeek-V4正式发布。官方公告标题为”DeepSeek-V4 预览版：迈入百万上下文普惠时代”，直接点明了这次发布的核心主题。

V4不是一次渐进式升级，而是架构层面的重大革新。它带来了两个变体：

	DeepSeek-V4-Flash	DeepSeek-V4-Pro
总参数	284B	1.6T
激活参数	13B	49B
上下文长度	100万token	100万token
最大输出	38.4万token	38.4万token
预训练数据	32T token	32T token
许可证	MIT	MIT

两个模型都支持思考模式（thinking mode）和非思考模式，默认开启思考模式。API层面支持JSON输出、工具调用、Chat前缀补全和FIM补全（仅非思考模式）。

架构层面的核心创新：

混合注意力机制（Hybrid Attention）：V4将压缩稀疏注意力（CSA, Compressed Sparse Attention）与重度压缩注意力（HCA, Heavily Compressed Attention）相结合。CSA负责在稀疏模式下选择性地关注关键token，HCA则对token维度进行压缩。两者的组合使得在100万token上下文下的推理FLOPs仅为V3.2的27%，KV缓存仅为V3.2的10%。

流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）：这是一种新的层间连接方式，通过在流形空间中约束信息流动，提升了深层网络的训练稳定性和表达能力。

Muon优化器：V4采用了Muon优化器进行训练，这是一种针对大规模MoE模型设计的优化器，在训练效率和收敛速度上优于传统的AdamW。

量化策略：MoE专家参数使用FP4量化，其他参数使用FP8。这种差异化量化策略在保持模型质量的同时，进一步降低了推理成本。

1.6 关键决策的回溯

回顾DeepSeek从V1到V4的发展历程，有几个关键决策深刻塑造了今天的局面：

选择开源路线：在2023年大模型创业潮中，几乎所有中国团队都选择了闭源商业化。DeepSeek选择开源，表面上放弃了直接变现，实际上建立了强大的技术品牌和开发者生态。V2的MLA论文被广泛引用，V3的训练成本数据成为行业标杆，这些都为V4的发布积累了巨大的势能。

押注MoE架构：从V2开始就坚定走MoE路线，而非跟随GPT系列的稠密架构。MoE的稀疏激活特性天然适合降低成本，这让DeepSeek在定价上始终保持着对闭源竞品的数量级优势。

持续投入架构创新而非单纯堆参数：V2的MLA、V3的无辅助损失负载均衡、V4的混合注意力——每一次迭代都有原创性的架构贡献，而非简单地扩大模型规模。这种”用巧劲”的风格与幻方量化的量化投资基因一脉相承。

二、横向分析：竞争图谱

2.1 竞品识别与定位

DeepSeek V4处于大语言模型竞争最激烈的赛道。主要竞品包括：

竞品	发布方	最新版本	架构	上下文	开源
GPT-5.4	OpenAI	2026年Q1	未公开	未公开	否
Claude Opus 4.6	Anthropic	2026年Q1	未公开	200K	否
Gemini 3.1 Pro	Google	2026年Q1	未公开	200万+	否
Qwen 3.6	阿里巴巴	2026年Q1	MoE	128K	部分
DeepSeek V4	深度求索	2026年4月24日	MoE	100万	是（MIT）

2.2 性能对比：基准测试全面分析

2.2.1 基座模型对比

在基座模型（无指令微调）层面，V4-Pro在几乎所有基准测试上都显著超越了前代V3.2：

基准测试	V3.2-Base	V4-Flash-Base	V4-Pro-Base	提升幅度
MMLU (5-shot)	87.8	88.7	90.1	+2.3
MMLU-Pro (5-shot)	65.5	68.3	73.5	+8.0
HumanEval (0-shot)	62.8	69.5	76.8	+14.0
GSM8K (8-shot)	91.1	90.8	92.6	+1.5
MATH (4-shot)	60.5	57.4	64.5	+4.0
SimpleQA (25-shot)	28.3	30.1	55.2	+26.9
GPQA SuperGPQA (5-shot)	45.0	46.5	53.9	+8.9
LongBench-V2 (1-shot)	40.2	44.7	51.5	+11.3

最引人注目的是SimpleQA（简单问答）从28.3飙升到55.2，几乎翻倍。这说明V4在世界知识的存储和检索能力上有了质的飞跃，很可能与32T token的预训练数据量和新的注意力机制有关。HumanEval（代码生成）从62.8到76.8的提升同样显著，表明V4在代码理解能力上的大幅进步。

V4-Flash虽然参数量远小于V4-Pro（284B vs 1.6T），但在多数基准上已经超越了V3.2-Base，这证明了V4架构本身的效率优势。

2.2.2 指令模型：与闭源前沿的正面交锋

这是最核心的对比。V4-Pro-Max（最大推理预算）与当前最强闭源模型的对决：

基准测试	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro High	V4-Pro Max
MMLU-Pro	89.1	87.5	91.0	87.5
SimpleQA-Verified	46.2	45.3	75.6	57.9
Chinese-SimpleQA	76.4	76.8	85.9	84.4
GPQA Diamond	91.3	93.0	94.3	90.1
HLE	40.0	39.8	44.4	37.7
LiveCodeBench	88.8	—	91.7	93.5 🏆
Codeforces	—	3168	3052	3206 🏆
HMMT 2026	96.2	97.7	94.7	95.2
IMOAnswerBench	75.3	91.4	81.0	89.8
SWE Verified	80.8	—	80.6	80.6
SWE Pro	57.3	57.7	54.2	55.4
BrowseComp	83.7	82.7	85.9	83.4
MCPAtlas Public	73.8	67.2	69.2	73.6
MRCR 1M	92.9	—	76.3	83.5

代码能力：V4-Pro的王牌。 LiveCodeBench 93.5分超越了所有竞品，Codeforces Rating 3206同样位居第一。这是一个开源模型首次在编程基准上全面超越闭源前沿。DeepSeek在官方公告中也特别强调，V4-Pro在Agent编程场景中的内部使用体验”优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式”。

知识与推理：仍有差距。 MMLU-Pro 87.5落后于Gemini 3.1 Pro的91.0和Opus 4.6的89.1。GPQA Diamond 90.1同样低于两个主要竞品。HLE（人类最后考试）37.7是四项中最低的。这说明V4在需要深度知识储备和复杂推理的场景中，与闭源前沿仍有可感知的差距。

中文能力：接近顶尖。 Chinese-SimpleQA 84.4仅落后Gemini 3.1 Pro的85.9，在中文场景中表现优异。

长上下文：显著进步但非最强。 MRCR 1M（百万token多轮检索）83.5大幅超越Gemini 3.1 Pro的76.3，但落后于Opus 4.6的92.9。考虑到V4是首个将百万上下文作为标配的开源模型，这个成绩已经相当亮眼。

2.3 定价对比：成本优势的量化

模型	输入（缓存命中）	输入（缓存未命中）	输出
V4-Flash	$0.028/M	$0.14/M	$0.28/M
V4-Pro	$0.145/M	$1.74/M	$3.48/M
GPT-5.4（参考）	—	~$10/M	~$30/M
Opus 4.6（参考）	—	~$15/M	~$75/M

V4-Flash的输出价格仅为$0.28/M token，大约是GPT-5.4的1/100、Opus 4.6的1/270。即使是V4-Pro，输出价格$3.48/M也仅为GPT-5.4的约1/9。

这种定价策略延续了DeepSeek一贯的风格：用架构创新带来的成本优势，在价格上形成碾压。对于高频调用的Agent场景和大规模数据处理场景，V4-Flash的成本优势是决定性的。

2.4 用户视角：真实使用体验

DeepSeek V4在发布当天（2026年4月24日）就已经在chat.deepseek.com上线，同时适配了Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent工具。

从官方公告中的内部使用反馈来看：

Agent编程：V4-Pro在简单任务上与V4-Flash表现相当，但在复杂任务上差距明显。对于需要多步推理和代码生成的Agent场景，推荐使用V4-Pro的思考模式（reasoning_effort=max）。
思考模式：V4提供了三个推理档位——非思考（快速）、思考High、思考Max。官方建议复杂Agent场景使用Max档位。
API兼容性：同时支持OpenAI格式（https://api.deepseek.com）和Anthropic格式（https://api.deepseek.com/anthropic），降低了迁移成本。

2.5 生态位分析

DeepSeek V4在竞争格局中占据了一个独特的生态位：

开源最强：V4-Pro是目前性能最强的开源大语言模型，MIT许可证意味着完全自由使用，包括商业用途。这对于无法使用闭源API的企业和研究机构来说，是极具吸引力的选择。

性价比之王：V4-Flash以极低的价格提供了接近V4-Pro的推理能力，适合对成本敏感的大规模应用场景。

Agent生态的基础设施：V4对主流Agent工具的原生适配，加上百万上下文窗口，使其成为构建复杂AI Agent系统的理想底座。

当前格局呈现”三强+开源追赶”的态势：Gemini 3.1 Pro在知识和推理上领先，GPT-5.4在数学和复杂推理上强势，Opus 4.6在长上下文和代码质量上表现突出，而V4-PRO则在编程基准上实现了开源模型的首次超越。

三、横纵交汇洞察

3.1 历史如何塑造了今天的竞争位置

DeepSeek从V1到V4的演进路径，本质上是一个”用工程效率对抗资源规模”的故事。幻方量化的量化投资基因——追求alpha、控制风险、优化成本——被完整地移植到了大模型研发中。

V2的MLA解决了KV缓存的效率问题，V3的无辅助损失负载均衡解决了MoE的训练稳定性问题，V4的混合注意力解决了百万上下文的推理成本问题。每一次架构创新都指向同一个方向：用更少的计算资源做更多的事。这种一以贯之的技术路线，让DeepSeek在成本维度上始终保持着对闭源竞品的数量级优势。

而开源策略则在另一个维度上建立了护城河。当V2的MLA论文被全球研究者引用、V3的训练成本数据成为行业基准时，DeepSeek已经不再只是一个模型提供商，而是成为了大模型技术进步的公共基础设施。V4发布时HuggingFace上1.72k的点赞和115条评论，证明了这种技术品牌的号召力。

3.2 优势与劣势的历史根源

编程能力的领先并非偶然。DeepSeek从V2开始就在代码数据的清洗和配比上投入了大量精力，V3引入的Multi-Token Prediction对代码生成有天然的增益（代码的局部结构化特征使得多token预测更有效），V4的32T token预训练数据中代码占比的进一步提升，最终在LiveCodeBench和Codeforces上开花结果。

知识储备的差距则可能与训练数据的多样性有关。Gemini 3.1 Pro在SimpleQA-Verified上以75.6大幅领先V4-Pro的57.9，这暗示Google在训练数据的广度和质量上仍有优势。V4的32T token虽然总量巨大，但在某些知识密集型领域的覆盖可能不如Google的多模态数据管线。

百万上下文的实现是V4最具战略意义的突破。100万token的上下文窗口意味着模型可以一次性处理整本书籍、完整的代码仓库、或数小时的对话记录。这对于Agent场景——需要模型持续维护大量上下文状态——是质的改变。V4在100万token下的推理FLOPs仅为V3.2的27%，KV缓存仅为10%，这个效率提升使得百万上下文从”理论上可行”变成了”实际可用”。

3.3 未来推演

最可能的剧本：开源生态加速追赶。 V4的MIT许可证和Agent工具适配将加速开源模型在生产环境中的采用。预计未来6个月内，基于V4构建的Agent应用将大量涌现，开源与闭源的性能差距将进一步缩小。V4-Flash的超低定价可能引发一轮价格战，迫使闭源厂商下调API价格。

最危险的剧本：地缘政治风险。 DeepSeek作为中国AI公司，面临着美国出口管制和芯片限制的持续压力。V4使用的FP4量化和大规模MoE架构对计算资源的需求依然巨大，如果芯片供应进一步受限，可能影响后续版本的迭代速度。此外，中美AI竞争的升温可能导致某些国际市场对DeepSeek模型的采用受限。

最乐观的剧本：成为全球AI基础设施。 如果DeepSeek能持续保持架构创新的速度，同时维护好开源生态，V4及后续版本有可能成为全球AI应用的默认底座——就像Linux之于服务器、Android之于移动设备。百万上下文+超低成本+MIT许可证的组合，为AI的大规模普及扫清了关键障碍。

四、信息来源

DeepSeek官方公告：”DeepSeek-V4 预览版：迈入百万上下文普惠时代”，https://www.deepseek.com/，访问时间：2026年4月24日
DeepSeek API文档：https://api-docs.deepseek.com/，访问时间：2026年4月24日
HuggingFace模型卡：https://huggingface.co/collections/deepseek-ai/deepseek-v4，访问时间：2026年4月24日
ModelScope模型集合：https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4，访问时间：2026年4月24日
技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf，访问时间：2026年4月24日