Gated Delta Net
门控增量网络(Gated Delta Network)的技术原理、性能优势与工业应用综述
随着大语言模型(LLM)在长文本处理、多轮对话以及复杂指令遵循等任务中的广泛应用,传统 Transformer 架构所面临的计算挑战日益凸显。自注意力机制(Self-Attention)的计算复杂度与内存占用随序列长度 $L$ 呈二次方增长($O(L^2)$),这一“效率之墙”严重制约了模型处理超长上下文的能力 。为了突破这一瓶颈,研究界探索了多种亚线性复杂度的替代方案,其中门控增量网络(Gated Delta Network,简称 GDN 或 Gated DeltaNet)作为线性 Transformer 的演进版本,凭借其在记忆精确度与硬件效率之间的卓越平衡,正逐渐成为新一代长文本模型的核心技术 。
第一部分:Gated Delta Network 的核心原理与理论演进
GDN 的设计灵感源于对现有线性递归模型局限性的深度审视。在线性 Transformer 的语境下,模型通常被视为一种基于外积的键值关联记忆(Outer-product-based key-value associative memory) 。然而,这种记忆机制存在一个本质缺陷:其能够存储的正交键值对数量受限于模型的维度。当序列长度超过维度时,不可避免地会发生“记忆碰撞”(Memory Collision),导致检索精确度大幅下降 。为了解决这一问题,GDN 引入了门控机制(Gating)与增量规则(Delta Rule)的协同作用 。
1.1 从单纯递归到门控增量规则
早期的线性 Transformer 采用纯加性更新规则,即 $S_t = S_{t-1} + v_t k_t^T$。这种方式虽然简单,但容易导致记忆饱和且缺乏选择性 。
随后,以 Mamba2 为代表的状态空间模型(SSM)引入了数据相关的门控衰减项 $\alpha_t \in (0,1)$,其更新规则演变为 $S_t = \alpha_t S_{t-1} + v_t k_t^T$ 。虽然门控能够有效清除陈旧记忆,但它采取的是一种“无差别衰减”策略:如果模型需要忘记某个特定的旧关联,它必须降低整个记忆矩阵的强度,这种粗放的记忆管理方式在需要精确更新的场景中显得力不从心 。
相比之下,基于增量规则的 DeltaNet 采用了类似于 Widrow-Hoff 法则的更新方式。它通过计算当前输入键 $k_t$ 与记忆矩阵中已有信息的偏差,实现对特定记忆槽位的“外科手术式更新” 。
DeltaNet 的状态更新公式如下:
$$S_t = S_{t-1} ( I - \beta_t k_t k_t^T ) + \beta_t v_t k_t^T = S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T $$
其中,$H = I - \beta_t k_t k_t^T$ 为 Householder 变换矩阵,其作用为将输入向量 $x$ 变为由向量 $k$ 定义的超平面的镜像向量 $x^\prime$。$\Delta = v_t - S_{t-1} k_t$ 可以认为是只需要更新增量 value。如果 $\Delta$ 趋近于 0,说明本次需要记忆的内容较少;反之,说明本次需要记忆的内容较多,达到了不同 token 具有不同贡献量的效果。
GDN 将这两者的优势有机统一,提出了门控增量规则(Gated Delta Rule)。其核心状态更新公式表示为:
$$S_t = \alpha_t S_{t-1}(I - \beta_t k_t k_t^T) + \beta_t v_t k_t^T$$
在此公式中,$S_t \in \mathbb{R}^{d_v \times d_k}$ 代表时刻 $t$ 的记忆状态,$\alpha_t$ 是负责全局记忆清理的衰减因子,而 $(I - \beta_t k_t k_t^T)$ 则代表广义 Householder 变换矩阵,负责在写入新信息前动态擦除与当前键 $k_t$ 相关的旧值 。$\beta_t$ 衡量了“写入强度”,决定了新信息替换旧信息的程度 。这种机制允许模型在 $\alpha_t \rightarrow 0$ 时迅速重置记忆,而在 $\alpha_t \rightarrow 1$ 时切换到纯增量更新模式,从而实现极其灵活的记忆控制 。
1.2 在线学习视角下的数学本质
从在线学习(Online Learning)的理论视角来看,GDN 的更新规则并非凭空产生,而是特定优化目标的闭式解 。传统线性注意力(LA)和 Mamba2 通常优化简单的负内积损失,而 GDN 则通过在线回归(Online Regression)来增强键值关联的建模能力 。研究分析表明,GDN 实际上是在每个步长 $t$ 最小化以下正规化目标函数:
$$\mathcal{L}(S_t) = ||S_t - \alpha_t S_{t-1}||_F^2 - 2 \left < S_t k_t, \beta_t(v_t - \alpha_t S_{t-1} k_t) \right >$$
通过这种方式,隐藏状态 $S$ 可以被视为一组“快速权重”(Fast Weights),而增量规则则是通过在测试阶段进行随机梯度下降(SGD)来优化记忆容量 。这种将记忆管理转化为回归任务的思路,使得 GDN 在处理复杂模式(如 UUID 等非结构化文本)的记忆与检索时,表现出显著优于常规递归模型的鲁棒性 。
1.3 硬件加速与并行算法:WY 表示法的应用
线性递归模型在训练效率上长期受制于其串行本质。为了实现硬件高效的训练,GDN 采用了基于 WY 表示法(Bischof & Loan, 1985)的块状并行(Chunkwise Parallel)算法 。该算法将长序列划分为大小为 $C$ 的块(通常为 128 或 256),并利用张量计算核心(Tensor Cores)进行并行加速 。在块内,算法通过将 Householder 矩阵的乘积转化为矩阵运算,极大地提高了算术强度(Arithmetic Intensity)。利用 UT 转换技术,模型可以将复杂的递归更新简化为如下矩阵形式:$$S_{[t+1]} = S_{[t]} P_{[t]} + H_{[t]}$$其中 $P_{[t]}$ 和 $H_{[t]}$ 分别捕捉了块内的记忆擦除和写入效应 。这种实现方式确保了 GDN 在现代 GPU 上具有极高的吞吐量。实验数据证明,GDN 的训练速度与 Mamba2 相当,且在处理超长序列(如 16K 或 32K)时,由于避免了自注意力机制中频繁的显存交换,其优势更加明显 。目前,Flash Linear Attention (FLA) 库已经集成了针对 GDN 优化的 Triton 内核,提供了比原生 PyTorch 实现更快的运行速度 。
第二部分:GDN 与其他主流长文本技术的性能对比
为了全面客观地评估 GDN 的技术地位,有必要将其与滑动窗口注意力(Sliding Window Attention, SWA)以及原生稀疏注意力(Native Sparse Attention, NSA)进行深度对比。这三种技术代表了解决长文本问题的不同技术路线:SWA 属于局部精确路径,NSA 属于动态稀疏路径,而 GDN 则属于递归压缩路径 。
2.1 GDN vs. 滑动窗口注意力 (SWA)
滑动窗口注意力通过限制每个 Token 只能观察其附近固定长度 $W$ 的邻居,将复杂度降低至 $O(L \cdot W)$ 。
性能表现对比:
在语言建模任务中,SWA 虽然在短程依赖和局部精确匹配(如语法结构)上表现出色,但其在处理长程依赖时存在明显的“信息丢失”现象 。相比之下,GDN 能够将过往信息压缩至固定大小的状态矩阵中,从而保留全局上下文 。
| 特性 | GDN (Gated Delta Net) | SWA (Sliding Window Attention) |
|---|---|---|
| 计算复杂度 | $O(L \cdot d^2)$ (线性) | $O(L \cdot W)$ (准线性) |
| 显存占用 | 固定(不随长度增长) | 随窗口大小固定,但 KV Cache 管理复杂 |
| 长程依赖 | 通过递归状态实现全局记忆 | 无法获取窗口外的历史信息 |
| 检索精确度 | 近似检索(存在饱和上限) | 窗口内 100% 精确检索 |
协同效应:
研究表明,GDN 与 SWA 并非互斥。在 Qwen 3.5 和 InfiniteVL 等混合架构中,通常会将 GDN 层与 SWA 层交替堆叠 。GDN 负责提供长程全局背景,而 SWA 负责补充高分辨率的局部细节,这种组合在 LongBench 等长文本理解基准测试中展现了超越单一架构的性能 。
2.2 GDN vs. 原生稀疏注意力 (NSA)
原生稀疏注意力(NSA)是由 DeepSeek 提出的一种创新的层内并行分支结构。它通过三条并行路径(压缩 Token、选择 Token 和滑动窗口)来模拟全局和局部的注意力分布 。
架构哲学差异:
NSA 仍然基于注意力机制,其核心在于“挑着看”,而 GDN 基于递归机制,其核心在于“记着看” 。
性能优势与代价:
- 推理速度与内存: NSA 虽然在解码阶段通过只加载部分 KV Block 实现了高达 11.6 倍的加速,但其 KV Cache 的显存占用仍然随长度线性增长 。对于极长序列(如 100 万 Token),NSA 的显存压力依然巨大。而 GDN 在推理时可转化为线性 RNN,其状态更新是常数内存开销,极大地降低了长文本推理的成本 。
- 训练特性: NSA 支持原生端到端训练,解决了以往稀疏方法训练推断不一致的问题 。GDN 同样支持块状并行训练,但在训练算术强度上,GDN 由于涉及复杂的 WY 表示法变换,其算子开发难度更高,但目前的 FLA 库已较好地解决了这一工程挑战 。
- 检索能力: NSA 凭借其动态令牌选择机制,在处理“海中捞针”(Needle-in-a-Haystack)任务时,由于可以直接访问原始 Key 向量,其上限高于递归模型 。GDN 虽然通过 Delta Rule 大幅改善了这一缺陷,但在极长上下文中的信息压缩损耗依然存在 。
| 维度 | GDN | NSA |
|---|---|---|
| 推理延迟 | Token 生成耗时为常数 | Token 生成耗时随长度缓慢增加 |
| KV Cache 容量 | $O(d^2)$ (与序列长度无关) | $O(L \cdot k)$ (随序列长度增长) |
| 应用难易度 | 需专用 Triton/CUDA 核优化 | 需复杂的索引和分块管理 |
| 主要优势 | 极致的显存效率与处理长度 | 极高的信息忠实度与稀疏速度 |
2.3 GDN 与 Mamba2 的直接对标
作为目前最强的 SSM 之一,Mamba2 是 GDN 最直接的竞争对手。GDN 在 ICLR 2025 的论文中明确指出,GDN 是对 Mamba2 在检索能力上的直接补强 。
在 S-NIAH-1(通关密码检索)任务中,Mamba2 在上下文达到 2000 token 后性能开始出现断崖式下跌,原因在于其简单的衰减机制导致历史信息丢失过快 。而 GDN 凭借增量规则,能够将高精确度的检索能力维持到更长的距离 。在 S-NIAH-3(UUID 检索)任务中,GDN 的得分显著高于 Mamba2,验证了其在处理复杂非语义模式时的优越性 。
| 任务 (1.3B 模型) | Mamba2 | DeltaNet | Gated DeltaNet |
|---|---|---|---|
| S-NIAH-1 Avg. Acc | 30.4 | 98.8 | 91.8 |
| S-NIAH-2 Avg. Acc | 17.0 | 14.4 | 29.6 |
| Wikitext-103 PPL | 12.56 | 16.88 | 12.17 |
| Commonsense Avg. | 54.89 | 52.14 | 55.32 |
第三部分:GDN 的工业应用现状分析
GDN 的成熟不仅体现在理论研究上,更体现在其在顶级大模型产品中的大规模应用。目前,GDN 已成为推动“原生长文本”和“智能体架构”的关键组件。
3.1 Qwen 3.5 的核心支撑
阿里巴巴最近发布的 Qwen 3.5 系列模型是 GDN 工业化应用的最典型案例 。Qwen 3.5 抛弃了以往对滑动窗口注意力的过度依赖,转而采用一种创新的混合注意力架构 。
架构设计细节:
在 Qwen 3.5 中,模型通常按照 3:1 的比例进行层交替:每 3 层 GDN 层后跟随 1 层全注意力(Full Attention)层 。
- GDN 层的角色: 充当“主力算子”,负责极长上下文的线性处理。由于 GDN 具有线性复杂度,它使得 Qwen 3.5 能够原生支持高达 262,144 token 的上下文,并通过 RoPE 扩展进一步支持到 100 万 token 。
- 全注意力层的角色: 充当“记忆锚点”。每隔几层进行一次全局注意力建模,能够纠正递归状态在长程传播中的累积漂移,保证逻辑推理的严密性 。
性能增益:
得益于 GDN 的高吞吐量,Qwen 3.5 在处理 256k token 的超长上下文时,解码吞吐量比前代架构提升了 19 倍 。在智能体搜索(BrowseComp)和长文档分析(OmniDocBench)等任务中,该架构的表现优于同等规模的全注意力模型,且成本显著降低 。
3.2 Kimi Linear 与 KDA 的演进
Kimi (Moonshot AI) 开发的 Kimi Linear 则是 GDN 技术的另一个分支演进 。它引入了 Kimi Delta Attention (KDA),在 GDN 的基础上进行了更细粒度的改进。
关键改进:通道级门控(Channel-wise Gating)
传统的 GDN 对每个注意力头(Head)使用单一的衰减因子 $\alpha_t$,这被称为“粗粒度门控” 。KDA 将其升级为通道级门控,允许每个特征维度拥有独立的记忆衰减速率 。这种设计类似于长短期记忆网络(LSTM)中的遗忘门,使得模型能够更精准地决定哪些语义特征需要长期保留,哪些需要立即重置 。
应用成效:
Kimi Linear 通过 3:1 的 KDA 与 MLA(Multi-head Latent Attention)混合比例,在 MMLU-Pro 和 RULER 等长文本测试中达到了帕累托最优(Pareto-optimal) 。在 100 万 token 的解码长度下,其每 token 的生成耗时(TPOT)仅为 1.84ms,而传统的 MLA 架构则需要 11.48ms 。
3.3 多模态与视频理解:InfiniteVL
在视频理解领域,输入的帧序列具有极高的冗余度且往往需要极长的上下文窗口 。InfiniteVL 架构通过将 GDN 与 SWA 结合,解决了视频模型在超长流式输入下的内存崩溃问题 。
该架构在处理 50K token 的长视频任务时,比基于 FlashAttention-2 的 Transformer 实现了 3.6 倍的加速,且显存占用始终稳定在 9GB 左右,不随视频帧数增加而增长 。这种“长度无关”的内存特性对于实时监控、自动驾驶监控等长时序视频分析场景具有决定性的商业价值 。
第四部分:深度分析与前瞻洞察
GDN 技术的崛起反映了序列建模领域从“算力暴力”向“算法精细化”的深刻转变。以下是针对 GDN 发展轨迹的深层次洞察。
4.1 记忆管理的“手术刀”效应
GDN 成功的核心在于它将记忆状态从一个简单的“蓄水池”变成了一个高度动态的“交互式工作区”。通过 Delta Rule 实现的 Householder 转换,本质上是在进行一种实时的数据正交化(Data Orthogonalization) 。这意味着模型能够在不断写入新信息的同时,主动腾出不必要的空间,从而在有限的固定状态维度内挤出更高的记忆容量 。这种机制对于需要高频状态更新的任务(如编写长代码、执行复杂工作流)至关重要。
4.2 混合架构成为 LLM 的必然标准
单一架构的时代正在结束。正如计算机系统采用 L1/L2 缓存和内存的分层结构,现代 LLM 也正转向由 GDN 支撑的层分层结构 。
- 底层架构: 大量使用 GDN 层,以极低的成本维持基本的上下文流动。
- 关键节点: 插入稀疏注意力或全注意力层,处理高难度的跨片段逻辑跳转。
这种“线性递归+稀疏/全注意力”的组合,不仅在性能上逼近全注意力 Transformer,更在工程可行性上为 100 万甚至 1000 万 token 的超长上下文铺平了道路 。
4.3 与端侧 AI (On-Device AI) 的天然适配
GDN 的线性推理特性使其成为移动端、边缘计算设备的理想选择 。在显存带宽极度受限(通常比数据中心 GPU 低 30-50 倍)的智能手机和可穿戴设备上,GDN 能够避免庞大 KV Cache 带来的频繁内存读取操作,从而极大地降低功耗并提高生成响应速度 。Qwen 3.5 的 4B 和 2B 密集模型(Dense models)通过 GDN 架构,已经证明了在端侧实现流畅长文本交互的可能性 。
4.4 存在的挑战与改进方向
尽管表现优异,GDN 仍面临若干技术挑战:
- 状态容量极限: 无论增量规则如何高效,其物理上限仍受限于 $d^2$ 的状态矩阵大小 。对于极长且信息密度极高的任务,如何动态扩展隐藏状态或结合外部检索增强(RAG),仍是待研究的课题。
- 数值稳定性: 在超大规模预训练中,Householder 矩阵的乘积可能导致数值溢出或梯度峰值 。目前的解决方案通常包括 L2 归一化和精细化的 bias 初始化,但更稳健的数值策略仍在探索中 。
- 软件生态: 相比于高度成熟的 FlashAttention 生态,针对 GDN 的高效算子库(如 FLA, SGLang)仍处于快速迭代期,需要更多的工业实践来打磨性能稳定性 。
结论
门控增量网络(Gated Delta Network)通过对记忆管理机制的深刻变革,成功解决了线性 Transformer 长期以来的记忆模糊问题。它不仅在理论上统一了门控衰减与增量更新,更在硬件实现上通过块状并行算法达到了工业级性能。对比滑动窗口注意力和原生稀疏注意力,GDN 在显存效率、推理一致性以及长程依赖建模上展现了独特优势。
随着以 Qwen 3.5 和 Kimi Linear 为代表的标杆模型在商业化场景中取得巨大成功,我们可以预见,基于 GDN 的混合架构将成为未来大规模生成式系统的主流选择。它不仅代表了长文本技术的突破,更是通往高效、低碳、普惠 AI 的关键一步。在未来的发展中,随着通道级门控、负特征值追踪以及与测试时训练(TTT)等前沿技术的进一步融合,GDN 将继续刷新序列建模的性能边界 。