DeepSeek-V4 架构全解:百万token时代的效率革命
2026年4月24日,DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4,距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座,而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。
一、模型规格速览
V4系列分为两个版本:
| 规格 | V4-Flash | V4-Pro |
|---|---|---|
| 总参数 | 284B | 1.6T |
| 激活参数 | 13B | 49B |
| 层数 | 43 | 61 |
| Hidden Dim | 4096 | 7168 |
| Routed Experts | 256 | 384 |
| Shared Expert | 1 | 1 |
| 每token激活专家 | 6 | 6 |
| 预训练Tokens | 32T | 33T |
| 模型权重 | 160GB (FP4+FP8混合) | 861GB (FP4+FP8混合) |
V4-Pro 成为当下公开权重最大的开源模型,全面支持 1M token 原生上下文。
在1M上下文场景下,效率对比达到惊人水平:
- V4-Pro:单token FLOPs 仅为 V3.2 的 **27%**,KV cache 仅为 10%
- V4-Flash:单token FLOPs 仅为 V3.2 的 **10%**,KV cache 仅为 7%
这意味着,百万token长上下文终于从奢侈品变成了日用品。
二、架构全景:三大核心升级
相比V3,V4在三个维度动了架构手术:
- mHC(Manifold-Constrained Hyper-Connections):残差连接的革命
- Hybrid Attention(CSA + HCA 交替架构):注意力机制的根源改造
- Muon 优化器:训练方式的换血
MoE部分沿用 DeepSeekMoE,MTP(Multi-Token Prediction)模块与V3保持一致。细节微调包括:affinity score 激活函数从 Sigmoid 换成 Sqrt(Softplus(·)),取消 routing target nodes 数量约束,前几层 dense FFN 换用 Hash routing 的 MoE 层。
三、mHC:给残差连接加上”数学安全带”
残差连接自何恺明2016年在 ResNet 中提出以来,十年间几乎没变过。模型越来越深、参数越来越多,传统残差开始力不从心——信号传递不稳,训练容易崩溃。
Kimi 团队此前提出 **Hyper-Connections (HC)**:将残差流从一维扩展为 $n_{hc}$ 条并行通道,每层之间通过矩阵 $B$ 进行混合。想法优雅,但 DeepSeek 在堆叠多层时发现 HC 经常数值不稳定。
V4 的做法叫 mHC(Manifold-Constrained Hyper-Connections),核心是在 HC 基础上加了一个数学约束:
将混合矩阵 $B$ 约束到 双随机矩阵流形(Birkhoff polytope)上,行和与列和均归一化为1。
这个约束带来两层保护:
- 矩阵的谱范数天然 $\le 1$,残差传播有了硬上限,不会爆炸
- 双随机矩阵在乘法下封闭,堆再多层也保持稳定
输入映射 $A$ 和输出映射 $C$ 通过 Sigmoid 函数确保非负有界,避免信号相互抵消。
实现上使用 Sinkhorn-Knopp 迭代,交替做行归一化和列归一化,20次迭代收敛,配合 fused kernel 和选择性 recomputation,mHC 带来的 wall-time 开销控制在 overlapped pipeline 的 6.7% 以内。
mHC 不是一个惊艳的架构创新,但它是一个**”大模型能稳住训练”的工程基石**——随着模型继续变大变深,这种补丁将变成刚需。
四、Hybrid Attention:百万token效率的魔法
这是整篇技术报告最厚、也最核心的部分。V4 的注意力层不再是单一类型,而是两种结构交替配置:
4.1 CSA(Compressed Sparse Attention):压缩 + 稀疏
CSA 做两件事——先压缩,再稀疏选择:
第一步:KV 压缩。 每 $m$ 个 token 的 KV entries,通过带可学习权重的 attention-like 机制压成1个压缩块。
第二步:Lightning Indexer + Top-K 选择。 对每个 query token,用轻量 indexer 计算它与每个压缩 KV 块的相关性分数,只取 top-k。
第三步:Core Attention。 在选中的 top-k 压缩 KV 块上做 Multi-Query Attention。
第四步:Grouped Output Projection。 V4 的 head dimension 设为 512(远超 V3.2 的 128),如果直接投影所有 head 输出会很贵。于是做了分组投影——将 $n_h$ 个 head 分 $g$ 组,每组先投到中间维度 $d_g$,最后合并。
整个 CSA 相当于做了两层压缩:
- 第一层:序列长度从 $n$ 压缩到 $n/m$
- 第二层:稀疏选择从 $n/m$ 压到 top-k
对1M token序列,原本需要 attend 1M 个 token,现在只需 attend 1024 个压缩块。
4.2 HCA(Heavily Compressed Attention):极限压缩 + Dense
HCA 的思路更直接——拼命压,但不做稀疏:
- 压缩率 $m’ = 128$,每128个 token 压成一个 KV entry
- 不含重叠,直接分组压缩
- 对所有压缩后的 KV 做 dense attention
4.3 CSA 与 HCA 的分工
读完整篇报告,二者的分工逐渐清晰:
- CSA:压缩温和、稀疏把关,适合做 token 级别的精细检索
- HCA:压缩凶猛、保持 dense,适合做长距离全局信号汇总
V4 将二者层层交替——Pro 有 61 层,Flash 有 43 层,CSA 和 HCA 一层一层往上叠。既不漏细节,也不被细节拖住。
4.4 配套优化
论文还披露了若干工程 tricks:
- Q/KV Normalization:在 core attention 之前对 query 和 KV entries 做 RMSNorm,防止 attention logits 爆炸
- Partial RoPE:只对 query 和 KV entries 的最后64维施加旋转位置编码,在 output 端对应抵消,只保留相对位置信息
- Sliding Window Attention:额外增加辅助分支,每个 query 除了看压缩 KV,还看最近128个 token 的未压缩 KV,补偿近距离依赖
- Attention Sink:在 attention 分母上加 learnable sink logit,允许 attention score 总和不等于1,避免长序列中注意力被强制均摊
五、Muon 优化器:从 AdamW 换血
V4 训练中绝大多数参数优化不再使用 AdamW,而是 Muon——基于矩阵正交化的优化器。
Muon 最初由 Keller Jordan 等人在小模型上验证,在 LLM 规模的首次大规模验证是 Kimi K2(2025年)。但现在 DeepSeek 也全面用上,并做了自己的版本:
- 采用 Hybrid Newton-Schulz 迭代,10步分两段
- 前8步用激进系数,快速将奇异值推向1附近
- 后2步用温和系数,精确将奇异值稳定在1
- Muon 只优化 2D 参数矩阵,其他参数(embedding、prediction head、RMSNorm 权重、mHC 静态偏置等)仍用 AdamW
- 与 Kimi 不同,DeepSeek 没有使用 QK-Clip 来防止 attention logits 爆炸——因为 V4 的注意力架构 直接在源头对 query 和 KV 做 RMSNorm,从根本上压住了爆炸的可能
同一个优化器,两家公司走了两条不同的稳定化路线——这是2026年开源社区最有意思的一幕。
六、模型训练
6.1 预训练
V4 系列数据量翻倍:V3 仅用 14.8T token,V4-Flash 和 V4-Pro 分别达到 32T 和 33T。
- 数据构成上,长文档单独 curate,优先收录科学论文和技术报告等有学术价值的长材料
- Tokenizer 沿用 V3 的 128K 词表
- 序列长度走四阶段:4K → 16K → 64K → 1M
- Sparse attention 不是从头打开,前 1T token 用 dense attention 做 warmup,扩展到 64K 时才引入稀疏性
训练中出过一次严重的 loss spike。DeepSeek 摸到两个”土办法”:
- Anticipatory Routing
- SwiGLU Clamping
论文原话极为诚实:*”这两个 trick 管用,但底层机理仍是 open question。”* 一个训了两个万亿参数 MoE 的团队公开承认”不知道为什么管用”,在2026年实属稀罕。
6.2 后训练:On-Policy Distillation
V4 后训练阶段做了一次方法论替换——传统 mixed RL 阶段被 On-Policy Distillation (OPD) 完全替代:
第一步:训练领域专家。 数学、代码、Agent、指令跟随四个领域,各自独立训一个 expert。先 SFT 打底,再用 GRPO 做 domain-specific RL。引入三档推理模式——Non-think、Think High、Think Max,每档输出长度不同。
第二步:OPD 合并。 十几个 expert 通过 on-policy distillation 合并进一个 student。student 自己 rollout,最小化 reverse KL 向对应领域 expert 对齐。
工程上,十几个 teacher 每个都是万亿级,vocab size 超 10 万。V4 的做法是:teacher 权重 offload 到分布式存储按需加载,只缓存 hidden states 不 materialize logits,按 teacher 排序样本保证每个 mini-batch 只加载一个 teacher head。
一套看似优雅的后训练方法论,背后是一堆”不这样就装不下”的工程妥协。
七、基础设施:从NVIDIA到华为昇腾
V4 另一个引起广泛关注的信号是首次将华为昇腾与 NVIDIA 并列写入技术报告的验证平台。
MegaMoE 大核
自研 MegaMoE 单 fused kernel,将路由判断和专家矩阵乘法合二为一,直接砍掉中间 kernel 启动和显存搬运的开销。EP 通信完全藏在计算后面。
低精度量化
- MoE 路由专家权重采用 FP4 量化感知训练
- 报告特别指出:现有硬件上 FP4 和 FP8 峰值算力相同,但未来硬件上 FP4 可以再高出三分之一效率
- 等昇腾950等新硬件到位,还有一波红利可挖
国产芯片适配上路
DeepSeek 已在华为 Ascend NPU 上验证了细粒度专家并行(EP)方案,推理路径具备跨算力平台适配能力。但当前开源释放的主要仍是基于 CUDA 的 MegaMoE 和 DeepGEMM,底层实现深度绑定 NVIDIA 工具链。
官方 API 页面有一行小字意味深长:
“受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro 价格会大幅下调。“
其他
- TileLang DSL + Z3 SMT 用于内核开发
- KV cache 上盘存储,用于吃掉 shared prefix 的预填充
八、性能表现:不拼天花板,但抬高了地板
开源领先
| Benchmark | V4-Pro-Max | Kimi K2.6 | GLM-5.1 |
|---|---|---|---|
| SimpleQA-Verified | 57.9 | 36.9 | 38.1 |
| Codeforces Rating | 3206 | — | — |
SimpleQA 领先所有开源模型 20 个百分点。Codeforces rating 3206 不仅击败 GPT-5.4(3168)和 Gemini-3.1-Pro(3052),还在人类选手榜单上排名第23。
与闭源旗舰的差距
| 指标 | V4-Pro-Max | 顶尖闭源 |
|---|---|---|
| HLE | 37.7 | Gemini-3.1-Pro: 44.4 |
| 1M MRCR | 优于 Gemini | 不如 Claude |
| 知识/前沿推理 | — | 约落后3-6个月 |
论文坦诚地写道:
“DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro,但略落后于 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约落后最前沿闭源模型 3到6个月。”
Agent 与开发者体验
在内部 R&D 代码 benchmark 中,V4-Pro-Max 拿到 67%,接近 Claude Opus 4.5 的 70%。85 人的内部开发者调研显示,91% 表示 V4-Pro 可以作为主力 coding 模型。
官方推文也印证了这点:
“目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验 优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。”
九、四个预期,三个落地,一个留给下一代
V4 发布前,业界有四个”应该会进V4”的预期:
| 技术 | 状态 |
|---|---|
| mHC(流形约束超连接,梁文锋署名,2025.12.31 arXiv) | ✅ 进了V4 |
| Engram(条件记忆模块,1月联合北大发布) | ❌ 没进V4,点名留给V5 |
| DualPipe(V3老伙计,针对mHC调整) | ✅ 继续用 |
| Muon 优化器(从Kimi那边借鉴) | ✅ 替换AdamW |
Engram(条件记忆)虽未入局,但论文在未来方向中被明确点名——它的思路是将”记忆”从”计算”中剥离,给大模型挂载可扩展的外部记忆检索系统。这条线将在下一代继续探索。
十、未来方向与总结
未来方向:
- 探索新维度的稀疏性(点名 Engram 线)
- 低延迟架构
- 长时程多轮 Agentic 任务
- 多模态
- 更好的数据 curation
- 在架构上做”减法”,精简到最本质的部分
核心定位:
把 V4 放回 DeepSeek 的完整路径里看,它不是在追赶前沿,而是在持续抬高能用的下限。
从 V2 的 MLA 开始,DeepSeek 每一代都在做同一件事——删。删 KV cache、删激活参数、删注意力计算量。删到 V4,单 token 推理 FLOPs 砍到四分之一,KV cache 砍到十分之一。
V4 的真正价值不在 benchmark 数字上,而在于:把百万上下文、Agent原生能力、可接受的价格这三件事第一次绑在了一起。 它不是冲天花板的 SOTA 模型,但它是让普通开发者第一次能放心用上100万 token 上下文 Agent 的发布。
闭源模型卷能力天花板,开源模型卷地板——地板抬高多少,决定 AI 应用爆发的规模。在这一代,V4 实打实地把地板往上抬了一截。