DeepSeek-V4 架构全解：百万token时代的效率革命

2026年4月24日，DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4，距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座，而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。

一、模型规格速览

V4系列分为两个版本：

规格	V4-Flash	V4-Pro
总参数	284B	1.6T
激活参数	13B	49B
层数	43	61
Hidden Dim	4096	7168
Routed Experts	256	384
Shared Expert	1	1
每token激活专家	6	6
预训练Tokens	32T	33T
模型权重	160GB (FP4+FP8混合)	861GB (FP4+FP8混合)

V4-Pro 成为当下公开权重最大的开源模型，全面支持 1M token 原生上下文。

在1M上下文场景下，效率对比达到惊人水平：

V4-Pro：单token FLOPs 仅为 V3.2 的 **27%**，KV cache 仅为 10%
V4-Flash：单token FLOPs 仅为 V3.2 的 **10%**，KV cache 仅为 7%

这意味着，百万token长上下文终于从奢侈品变成了日用品。

二、架构全景：三大核心升级

相比V3，V4在三个维度动了架构手术：

mHC（Manifold-Constrained Hyper-Connections）：残差连接的革命
Hybrid Attention（CSA + HCA 交替架构）：注意力机制的根源改造
Muon 优化器：训练方式的换血

MoE部分沿用 DeepSeekMoE，MTP（Multi-Token Prediction）模块与V3保持一致。细节微调包括：affinity score 激活函数从 Sigmoid 换成 Sqrt(Softplus(·))，取消 routing target nodes 数量约束，前几层 dense FFN 换用 Hash routing 的 MoE 层。

三、mHC：给残差连接加上”数学安全带”

残差连接自何恺明2016年在 ResNet 中提出以来，十年间几乎没变过。模型越来越深、参数越来越多，传统残差开始力不从心——信号传递不稳，训练容易崩溃。

Kimi 团队此前提出 **Hyper-Connections (HC)**：将残差流从一维扩展为 $n_{hc}$ 条并行通道，每层之间通过矩阵 $B$ 进行混合。想法优雅，但 DeepSeek 在堆叠多层时发现 HC 经常数值不稳定。

V4 的做法叫 mHC（Manifold-Constrained Hyper-Connections），核心是在 HC 基础上加了一个数学约束：

将混合矩阵 $B$ 约束到 双随机矩阵流形（Birkhoff polytope）上，行和与列和均归一化为1。

这个约束带来两层保护：

矩阵的谱范数天然 $\le 1$，残差传播有了硬上限，不会爆炸
双随机矩阵在乘法下封闭，堆再多层也保持稳定

输入映射 $A$ 和输出映射 $C$ 通过 Sigmoid 函数确保非负有界，避免信号相互抵消。

实现上使用 Sinkhorn-Knopp 迭代，交替做行归一化和列归一化，20次迭代收敛，配合 fused kernel 和选择性 recomputation，mHC 带来的 wall-time 开销控制在 overlapped pipeline 的 6.7% 以内。

mHC 不是一个惊艳的架构创新，但它是一个**”大模型能稳住训练”的工程基石**——随着模型继续变大变深，这种补丁将变成刚需。

四、Hybrid Attention：百万token效率的魔法

这是整篇技术报告最厚、也最核心的部分。V4 的注意力层不再是单一类型，而是两种结构交替配置：

4.1 CSA（Compressed Sparse Attention）：压缩 + 稀疏

CSA 做两件事——先压缩，再稀疏选择：

第一步：KV 压缩。 每 $m$ 个 token 的 KV entries，通过带可学习权重的 attention-like 机制压成1个压缩块。

第二步：Lightning Indexer + Top-K 选择。 对每个 query token，用轻量 indexer 计算它与每个压缩 KV 块的相关性分数，只取 top-k。

第三步：Core Attention。 在选中的 top-k 压缩 KV 块上做 Multi-Query Attention。

第四步：Grouped Output Projection。 V4 的 head dimension 设为 512（远超 V3.2 的 128），如果直接投影所有 head 输出会很贵。于是做了分组投影——将 $n_h$ 个 head 分 $g$ 组，每组先投到中间维度 $d_g$，最后合并。

整个 CSA 相当于做了两层压缩：

第一层：序列长度从 $n$ 压缩到 $n/m$
第二层：稀疏选择从 $n/m$ 压到 top-k

对1M token序列，原本需要 attend 1M 个 token，现在只需 attend 1024 个压缩块。

4.2 HCA（Heavily Compressed Attention）：极限压缩 + Dense

HCA 的思路更直接——拼命压，但不做稀疏：

压缩率 $m’ = 128$，每128个 token 压成一个 KV entry
不含重叠，直接分组压缩
对所有压缩后的 KV 做 dense attention

4.3 CSA 与 HCA 的分工

读完整篇报告，二者的分工逐渐清晰：

CSA：压缩温和、稀疏把关，适合做 token 级别的精细检索
HCA：压缩凶猛、保持 dense，适合做长距离全局信号汇总

V4 将二者层层交替——Pro 有 61 层，Flash 有 43 层，CSA 和 HCA 一层一层往上叠。既不漏细节，也不被细节拖住。

4.4 配套优化

论文还披露了若干工程 tricks：

Q/KV Normalization：在 core attention 之前对 query 和 KV entries 做 RMSNorm，防止 attention logits 爆炸
Partial RoPE：只对 query 和 KV entries 的最后64维施加旋转位置编码，在 output 端对应抵消，只保留相对位置信息
Sliding Window Attention：额外增加辅助分支，每个 query 除了看压缩 KV，还看最近128个 token 的未压缩 KV，补偿近距离依赖
Attention Sink：在 attention 分母上加 learnable sink logit，允许 attention score 总和不等于1，避免长序列中注意力被强制均摊

五、Muon 优化器：从 AdamW 换血

V4 训练中绝大多数参数优化不再使用 AdamW，而是 Muon——基于矩阵正交化的优化器。

Muon 最初由 Keller Jordan 等人在小模型上验证，在 LLM 规模的首次大规模验证是 Kimi K2（2025年）。但现在 DeepSeek 也全面用上，并做了自己的版本：

采用 Hybrid Newton-Schulz 迭代，10步分两段
- 前8步用激进系数，快速将奇异值推向1附近
- 后2步用温和系数，精确将奇异值稳定在1
Muon 只优化 2D 参数矩阵，其他参数（embedding、prediction head、RMSNorm 权重、mHC 静态偏置等）仍用 AdamW
与 Kimi 不同，DeepSeek 没有使用 QK-Clip 来防止 attention logits 爆炸——因为 V4 的注意力架构 直接在源头对 query 和 KV 做 RMSNorm，从根本上压住了爆炸的可能

同一个优化器，两家公司走了两条不同的稳定化路线——这是2026年开源社区最有意思的一幕。

六、模型训练

6.1 预训练

V4 系列数据量翻倍：V3 仅用 14.8T token，V4-Flash 和 V4-Pro 分别达到 32T 和 33T。

数据构成上，长文档单独 curate，优先收录科学论文和技术报告等有学术价值的长材料
Tokenizer 沿用 V3 的 128K 词表
序列长度走四阶段：4K → 16K → 64K → 1M
Sparse attention 不是从头打开，前 1T token 用 dense attention 做 warmup，扩展到 64K 时才引入稀疏性

训练中出过一次严重的 loss spike。DeepSeek 摸到两个”土办法”：

Anticipatory Routing
SwiGLU Clamping

论文原话极为诚实：*”这两个 trick 管用，但底层机理仍是 open question。”* 一个训了两个万亿参数 MoE 的团队公开承认”不知道为什么管用”，在2026年实属稀罕。

6.2 后训练：On-Policy Distillation

V4 后训练阶段做了一次方法论替换——传统 mixed RL 阶段被 On-Policy Distillation (OPD) 完全替代：

第一步：训练领域专家。 数学、代码、Agent、指令跟随四个领域，各自独立训一个 expert。先 SFT 打底，再用 GRPO 做 domain-specific RL。引入三档推理模式——Non-think、Think High、Think Max，每档输出长度不同。

第二步：OPD 合并。 十几个 expert 通过 on-policy distillation 合并进一个 student。student 自己 rollout，最小化 reverse KL 向对应领域 expert 对齐。

工程上，十几个 teacher 每个都是万亿级，vocab size 超 10 万。V4 的做法是：teacher 权重 offload 到分布式存储按需加载，只缓存 hidden states 不 materialize logits，按 teacher 排序样本保证每个 mini-batch 只加载一个 teacher head。

一套看似优雅的后训练方法论，背后是一堆”不这样就装不下”的工程妥协。

七、基础设施：从NVIDIA到华为昇腾

V4 另一个引起广泛关注的信号是首次将华为昇腾与 NVIDIA 并列写入技术报告的验证平台。

MegaMoE 大核

自研 MegaMoE 单 fused kernel，将路由判断和专家矩阵乘法合二为一，直接砍掉中间 kernel 启动和显存搬运的开销。EP 通信完全藏在计算后面。

低精度量化

MoE 路由专家权重采用 FP4 量化感知训练
报告特别指出：现有硬件上 FP4 和 FP8 峰值算力相同，但未来硬件上 FP4 可以再高出三分之一效率
等昇腾950等新硬件到位，还有一波红利可挖

国产芯片适配上路

DeepSeek 已在华为 Ascend NPU 上验证了细粒度专家并行（EP）方案，推理路径具备跨算力平台适配能力。但当前开源释放的主要仍是基于 CUDA 的 MegaMoE 和 DeepGEMM，底层实现深度绑定 NVIDIA 工具链。

官方 API 页面有一行小字意味深长：

“受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro 价格会大幅下调。“

其他

TileLang DSL + Z3 SMT 用于内核开发
KV cache 上盘存储，用于吃掉 shared prefix 的预填充

八、性能表现：不拼天花板，但抬高了地板

开源领先

Benchmark	V4-Pro-Max	Kimi K2.6	GLM-5.1
SimpleQA-Verified	57.9	36.9	38.1
Codeforces Rating	3206	—	—

SimpleQA 领先所有开源模型 20 个百分点。Codeforces rating 3206 不仅击败 GPT-5.4（3168）和 Gemini-3.1-Pro（3052），还在人类选手榜单上排名第23。

与闭源旗舰的差距

指标	V4-Pro-Max	顶尖闭源
HLE	37.7	Gemini-3.1-Pro: 44.4
1M MRCR	优于 Gemini	不如 Claude
知识/前沿推理	—	约落后3-6个月

论文坦诚地写道：

“DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro，但略落后于 GPT-5.4 和 Gemini-3.1-Pro，发展轨迹大约落后最前沿闭源模型 3到6个月。”

Agent 与开发者体验

在内部 R&D 代码 benchmark 中，V4-Pro-Max 拿到 67%，接近 Claude Opus 4.5 的 70%。85 人的内部开发者调研显示，91% 表示 V4-Pro 可以作为主力 coding 模型。

官方推文也印证了这点：

“目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验 优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。”

九、四个预期，三个落地，一个留给下一代

V4 发布前，业界有四个”应该会进V4”的预期：

技术	状态
mHC（流形约束超连接，梁文锋署名，2025.12.31 arXiv）	✅ 进了V4
Engram（条件记忆模块，1月联合北大发布）	❌ 没进V4，点名留给V5
DualPipe（V3老伙计，针对mHC调整）	✅ 继续用
Muon 优化器（从Kimi那边借鉴）	✅ 替换AdamW

Engram（条件记忆）虽未入局，但论文在未来方向中被明确点名——它的思路是将”记忆”从”计算”中剥离，给大模型挂载可扩展的外部记忆检索系统。这条线将在下一代继续探索。

十、未来方向与总结

未来方向：

探索新维度的稀疏性（点名 Engram 线）
低延迟架构
长时程多轮 Agentic 任务
多模态
更好的数据 curation
在架构上做”减法”，精简到最本质的部分

核心定位：

把 V4 放回 DeepSeek 的完整路径里看，它不是在追赶前沿，而是在持续抬高能用的下限。

从 V2 的 MLA 开始，DeepSeek 每一代都在做同一件事——删。删 KV cache、删激活参数、删注意力计算量。删到 V4，单 token 推理 FLOPs 砍到四分之一，KV cache 砍到十分之一。

V4 的真正价值不在 benchmark 数字上，而在于：把百万上下文、Agent原生能力、可接受的价格这三件事第一次绑在了一起。 它不是冲天花板的 SOTA 模型，但它是让普通开发者第一次能放心用上100万 token 上下文 Agent 的发布。

闭源模型卷能力天花板，开源模型卷地板——地板抬高多少，决定 AI 应用爆发的规模。在这一代，V4 实打实地把地板往上抬了一截。

参考链接

DeepSeek-V4 技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek-V4 模型权重：https://huggingface.co/collections/deepseek-ai/deepseek-v4
mHC 论文：https://arxiv.org/abs/2512.24880
魔搭社区 V4 合集：https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4