🤖 AI Writer: gemini

门控增量网络（Gated Delta Network）的技术原理、性能优势与工业应用综述

随着大语言模型（LLM）在长文本处理、多轮对话以及复杂指令遵循等任务中的广泛应用，传统 Transformer 架构所面临的计算挑战日益凸显。自注意力机制（Self-Attention）的计算复杂度与内存占用随序列长度 $L$ 呈二次方增长（$O(L^2)$），这一“效率之墙”严重制约了模型处理超长上下文的能力。为了突破这一瓶颈，研究界探索了多种亚线性复杂度的替代方案，其中门控增量网络（Gated Delta Network，简称 GDN 或 Gated DeltaNet）作为线性 Transformer 的演进版本，凭借其在记忆精确度与硬件效率之间的卓越平衡，正逐渐成为新一代长文本模型的核心技术。

第一部分：Gated Delta Network 的核心原理与理论演进

GDN 的设计灵感源于对现有线性递归模型局限性的深度审视。在线性 Transformer 的语境下，模型通常被视为一种基于外积的键值关联记忆（Outer-product-based key-value associative memory）。然而，这种记忆机制存在一个本质缺陷：其能够存储的正交键值对数量受限于模型的维度。当序列长度超过维度时，不可避免地会发生“记忆碰撞”（Memory Collision），导致检索精确度大幅下降。为了解决这一问题，GDN 引入了门控机制（Gating）与增量规则（Delta Rule）的协同作用。

1.1 从单纯递归到门控增量规则

早期的线性 Transformer 采用纯加性更新规则，即 $S_t = S_{t-1} + v_t k_t^T$。这种方式虽然简单，但容易导致记忆饱和且缺乏选择性。

随后，以 Mamba2 为代表的状态空间模型（SSM）引入了数据相关的门控衰减项 $\alpha_t \in (0,1)$，其更新规则演变为 $S_t = \alpha_t S_{t-1} + v_t k_t^T$ 。虽然门控能够有效清除陈旧记忆，但它采取的是一种“无差别衰减”策略：如果模型需要忘记某个特定的旧关联，它必须降低整个记忆矩阵的强度，这种粗放的记忆管理方式在需要精确更新的场景中显得力不从心。

相比之下，基于增量规则的 DeltaNet 采用了类似于 Widrow-Hoff 法则的更新方式。它通过计算当前输入键 $k_t$ 与记忆矩阵中已有信息的偏差，实现对特定记忆槽位的“外科手术式更新” 。

DeltaNet 的状态更新公式如下：

$$S_t = S_{t-1} ( I - \beta_t k_t k_t^T ) + \beta_t v_t k_t^T = S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T $$

其中，$H = I - \beta_t k_t k_t^T$ 为 Householder 变换矩阵，其作用为将输入向量 $x$ 变为由向量 $k$ 定义的超平面的镜像向量 $x^\prime$。$\Delta = v_t - S_{t-1} k_t$ 可以认为是只需要更新增量 value。如果 $\Delta$ 趋近于 0，说明本次需要记忆的内容较少；反之，说明本次需要记忆的内容较多，达到了不同 token 具有不同贡献量的效果。

GDN 将这两者的优势有机统一，提出了门控增量规则（Gated Delta Rule）。其核心状态更新公式表示为：

$$S_t = \alpha_t S_{t-1}(I - \beta_t k_t k_t^T) + \beta_t v_t k_t^T$$

在此公式中，$S_t \in \mathbb{R}^{d_v \times d_k}$ 代表时刻 $t$ 的记忆状态，$\alpha_t$ 是负责全局记忆清理的衰减因子，而 $(I - \beta_t k_t k_t^T)$ 则代表广义 Householder 变换矩阵，负责在写入新信息前动态擦除与当前键 $k_t$ 相关的旧值。$\beta_t$ 衡量了“写入强度”，决定了新信息替换旧信息的程度。这种机制允许模型在 $\alpha_t \rightarrow 0$ 时迅速重置记忆，而在 $\alpha_t \rightarrow 1$ 时切换到纯增量更新模式，从而实现极其灵活的记忆控制。

1.2 在线学习视角下的数学本质

从在线学习（Online Learning）的理论视角来看，GDN 的更新规则并非凭空产生，而是特定优化目标的闭式解。传统线性注意力（LA）和 Mamba2 通常优化简单的负内积损失，而 GDN 则通过在线回归（Online Regression）来增强键值关联的建模能力。研究分析表明，GDN 实际上是在每个步长 $t$ 最小化以下正规化目标函数：

$$\mathcal{L}(S_t) = ||S_t - \alpha_t S_{t-1}||_F^2 - 2 \left < S_t k_t, \beta_t(v_t - \alpha_t S_{t-1} k_t) \right >$$

通过这种方式，隐藏状态 $S$ 可以被视为一组“快速权重”（Fast Weights），而增量规则则是通过在测试阶段进行随机梯度下降（SGD）来优化记忆容量。这种将记忆管理转化为回归任务的思路，使得 GDN 在处理复杂模式（如 UUID 等非结构化文本）的记忆与检索时，表现出显著优于常规递归模型的鲁棒性。

1.3 硬件加速与并行算法：WY 表示法的应用

线性递归模型在训练效率上长期受制于其串行本质。为了实现硬件高效的训练，GDN 采用了基于 WY 表示法（Bischof & Loan, 1985）的块状并行（Chunkwise Parallel）算法。该算法将长序列划分为大小为 $C$ 的块（通常为 128 或 256），并利用张量计算核心（Tensor Cores）进行并行加速。在块内，算法通过将 Householder 矩阵的乘积转化为矩阵运算，极大地提高了算术强度（Arithmetic Intensity）。利用 UT 转换技术，模型可以将复杂的递归更新简化为如下矩阵形式：$$S_{[t+1]} = S_{[t]} P_{[t]} + H_{[t]}$$其中 $P_{[t]}$ 和 $H_{[t]}$ 分别捕捉了块内的记忆擦除和写入效应。这种实现方式确保了 GDN 在现代 GPU 上具有极高的吞吐量。实验数据证明，GDN 的训练速度与 Mamba2 相当，且在处理超长序列（如 16K 或 32K）时，由于避免了自注意力机制中频繁的显存交换，其优势更加明显。目前，Flash Linear Attention (FLA) 库已经集成了针对 GDN 优化的 Triton 内核，提供了比原生 PyTorch 实现更快的运行速度。

第二部分：GDN 与其他主流长文本技术的性能对比

为了全面客观地评估 GDN 的技术地位，有必要将其与滑动窗口注意力（Sliding Window Attention, SWA）以及原生稀疏注意力（Native Sparse Attention, NSA）进行深度对比。这三种技术代表了解决长文本问题的不同技术路线：SWA 属于局部精确路径，NSA 属于动态稀疏路径，而 GDN 则属于递归压缩路径。

2.1 GDN vs. 滑动窗口注意力 (SWA)

滑动窗口注意力通过限制每个 Token 只能观察其附近固定长度 $W$ 的邻居，将复杂度降低至 $O(L \cdot W)$ 。

性能表现对比：

在语言建模任务中，SWA 虽然在短程依赖和局部精确匹配（如语法结构）上表现出色，但其在处理长程依赖时存在明显的“信息丢失”现象。相比之下，GDN 能够将过往信息压缩至固定大小的状态矩阵中，从而保留全局上下文。

特性	GDN (Gated Delta Net)	SWA (Sliding Window Attention)
计算复杂度	$O(L \cdot d^2)$ (线性)	$O(L \cdot W)$ (准线性)
显存占用	固定（不随长度增长）	随窗口大小固定，但 KV Cache 管理复杂
长程依赖	通过递归状态实现全局记忆	无法获取窗口外的历史信息
检索精确度	近似检索（存在饱和上限）	窗口内 100% 精确检索

协同效应：

研究表明，GDN 与 SWA 并非互斥。在 Qwen 3.5 和 InfiniteVL 等混合架构中，通常会将 GDN 层与 SWA 层交替堆叠。GDN 负责提供长程全局背景，而 SWA 负责补充高分辨率的局部细节，这种组合在 LongBench 等长文本理解基准测试中展现了超越单一架构的性能。

2.2 GDN vs. 原生稀疏注意力 (NSA)

原生稀疏注意力（NSA）是由 DeepSeek 提出的一种创新的层内并行分支结构。它通过三条并行路径（压缩 Token、选择 Token 和滑动窗口）来模拟全局和局部的注意力分布。

架构哲学差异：

NSA 仍然基于注意力机制，其核心在于“挑着看”，而 GDN 基于递归机制，其核心在于“记着看” 。

性能优势与代价：

推理速度与内存： NSA 虽然在解码阶段通过只加载部分 KV Block 实现了高达 11.6 倍的加速，但其 KV Cache 的显存占用仍然随长度线性增长。对于极长序列（如 100 万 Token），NSA 的显存压力依然巨大。而 GDN 在推理时可转化为线性 RNN，其状态更新是常数内存开销，极大地降低了长文本推理的成本。
训练特性： NSA 支持原生端到端训练，解决了以往稀疏方法训练推断不一致的问题。GDN 同样支持块状并行训练，但在训练算术强度上，GDN 由于涉及复杂的 WY 表示法变换，其算子开发难度更高，但目前的 FLA 库已较好地解决了这一工程挑战。
检索能力： NSA 凭借其动态令牌选择机制，在处理“海中捞针”（Needle-in-a-Haystack）任务时，由于可以直接访问原始 Key 向量，其上限高于递归模型。GDN 虽然通过 Delta Rule 大幅改善了这一缺陷，但在极长上下文中的信息压缩损耗依然存在。

维度	GDN	NSA
推理延迟	Token 生成耗时为常数	Token 生成耗时随长度缓慢增加
KV Cache 容量	$O(d^2)$ (与序列长度无关)	$O(L \cdot k)$ (随序列长度增长)
应用难易度	需专用 Triton/CUDA 核优化	需复杂的索引和分块管理
主要优势	极致的显存效率与处理长度	极高的信息忠实度与稀疏速度

2.3 GDN 与 Mamba2 的直接对标

作为目前最强的 SSM 之一，Mamba2 是 GDN 最直接的竞争对手。GDN 在 ICLR 2025 的论文中明确指出，GDN 是对 Mamba2 在检索能力上的直接补强。

在 S-NIAH-1（通关密码检索）任务中，Mamba2 在上下文达到 2000 token 后性能开始出现断崖式下跌，原因在于其简单的衰减机制导致历史信息丢失过快。而 GDN 凭借增量规则，能够将高精确度的检索能力维持到更长的距离。在 S-NIAH-3（UUID 检索）任务中，GDN 的得分显著高于 Mamba2，验证了其在处理复杂非语义模式时的优越性。

任务 (1.3B 模型)	Mamba2	DeltaNet	Gated DeltaNet
S-NIAH-1 Avg. Acc	30.4	98.8	91.8
S-NIAH-2 Avg. Acc	17.0	14.4	29.6
Wikitext-103 PPL	12.56	16.88	12.17
Commonsense Avg.	54.89	52.14	55.32

第三部分：GDN 的工业应用现状分析

GDN 的成熟不仅体现在理论研究上，更体现在其在顶级大模型产品中的大规模应用。目前，GDN 已成为推动“原生长文本”和“智能体架构”的关键组件。

3.1 Qwen 3.5 的核心支撑

阿里巴巴最近发布的 Qwen 3.5 系列模型是 GDN 工业化应用的最典型案例。Qwen 3.5 抛弃了以往对滑动窗口注意力的过度依赖，转而采用一种创新的混合注意力架构。

架构设计细节：

在 Qwen 3.5 中，模型通常按照 3:1 的比例进行层交替：每 3 层 GDN 层后跟随 1 层全注意力（Full Attention）层。

GDN 层的角色：充当“主力算子”，负责极长上下文的线性处理。由于 GDN 具有线性复杂度，它使得 Qwen 3.5 能够原生支持高达 262,144 token 的上下文，并通过 RoPE 扩展进一步支持到 100 万 token 。
全注意力层的角色：充当“记忆锚点”。每隔几层进行一次全局注意力建模，能够纠正递归状态在长程传播中的累积漂移，保证逻辑推理的严密性。

性能增益：

得益于 GDN 的高吞吐量，Qwen 3.5 在处理 256k token 的超长上下文时，解码吞吐量比前代架构提升了 19 倍。在智能体搜索（BrowseComp）和长文档分析（OmniDocBench）等任务中，该架构的表现优于同等规模的全注意力模型，且成本显著降低。

3.2 Kimi Linear 与 KDA 的演进

Kimi (Moonshot AI) 开发的 Kimi Linear 则是 GDN 技术的另一个分支演进。它引入了 Kimi Delta Attention (KDA)，在 GDN 的基础上进行了更细粒度的改进。

关键改进：通道级门控（Channel-wise Gating）

传统的 GDN 对每个注意力头（Head）使用单一的衰减因子 $\alpha_t$，这被称为“粗粒度门控” 。KDA 将其升级为通道级门控，允许每个特征维度拥有独立的记忆衰减速率。这种设计类似于长短期记忆网络（LSTM）中的遗忘门，使得模型能够更精准地决定哪些语义特征需要长期保留，哪些需要立即重置。

应用成效：

Kimi Linear 通过 3:1 的 KDA 与 MLA（Multi-head Latent Attention）混合比例，在 MMLU-Pro 和 RULER 等长文本测试中达到了帕累托最优（Pareto-optimal）。在 100 万 token 的解码长度下，其每 token 的生成耗时（TPOT）仅为 1.84ms，而传统的 MLA 架构则需要 11.48ms 。

3.3 多模态与视频理解：InfiniteVL

在视频理解领域，输入的帧序列具有极高的冗余度且往往需要极长的上下文窗口。InfiniteVL 架构通过将 GDN 与 SWA 结合，解决了视频模型在超长流式输入下的内存崩溃问题。

该架构在处理 50K token 的长视频任务时，比基于 FlashAttention-2 的 Transformer 实现了 3.6 倍的加速，且显存占用始终稳定在 9GB 左右，不随视频帧数增加而增长。这种“长度无关”的内存特性对于实时监控、自动驾驶监控等长时序视频分析场景具有决定性的商业价值。

第四部分：深度分析与前瞻洞察

GDN 技术的崛起反映了序列建模领域从“算力暴力”向“算法精细化”的深刻转变。以下是针对 GDN 发展轨迹的深层次洞察。

4.1 记忆管理的“手术刀”效应

GDN 成功的核心在于它将记忆状态从一个简单的“蓄水池”变成了一个高度动态的“交互式工作区”。通过 Delta Rule 实现的 Householder 转换，本质上是在进行一种实时的数据正交化（Data Orthogonalization）。这意味着模型能够在不断写入新信息的同时，主动腾出不必要的空间，从而在有限的固定状态维度内挤出更高的记忆容量。这种机制对于需要高频状态更新的任务（如编写长代码、执行复杂工作流）至关重要。

4.2 混合架构成为 LLM 的必然标准

单一架构的时代正在结束。正如计算机系统采用 L1/L2 缓存和内存的分层结构，现代 LLM 也正转向由 GDN 支撑的层分层结构。

底层架构：大量使用 GDN 层，以极低的成本维持基本的上下文流动。
关键节点：插入稀疏注意力或全注意力层，处理高难度的跨片段逻辑跳转。

这种“线性递归+稀疏/全注意力”的组合，不仅在性能上逼近全注意力 Transformer，更在工程可行性上为 100 万甚至 1000 万 token 的超长上下文铺平了道路。

4.3 与端侧 AI (On-Device AI) 的天然适配

GDN 的线性推理特性使其成为移动端、边缘计算设备的理想选择。在显存带宽极度受限（通常比数据中心 GPU 低 30-50 倍）的智能手机和可穿戴设备上，GDN 能够避免庞大 KV Cache 带来的频繁内存读取操作，从而极大地降低功耗并提高生成响应速度。Qwen 3.5 的 4B 和 2B 密集模型（Dense models）通过 GDN 架构，已经证明了在端侧实现流畅长文本交互的可能性。

4.4 存在的挑战与改进方向

尽管表现优异，GDN 仍面临若干技术挑战：

状态容量极限：无论增量规则如何高效，其物理上限仍受限于 $d^2$ 的状态矩阵大小。对于极长且信息密度极高的任务，如何动态扩展隐藏状态或结合外部检索增强（RAG），仍是待研究的课题。
数值稳定性：在超大规模预训练中，Householder 矩阵的乘积可能导致数值溢出或梯度峰值。目前的解决方案通常包括 L2 归一化和精细化的 bias 初始化，但更稳健的数值策略仍在探索中。
软件生态：相比于高度成熟的 FlashAttention 生态，针对 GDN 的高效算子库（如 FLA, SGLang）仍处于快速迭代期，需要更多的工业实践来打磨性能稳定性。

结论

门控增量网络（Gated Delta Network）通过对记忆管理机制的深刻变革，成功解决了线性 Transformer 长期以来的记忆模糊问题。它不仅在理论上统一了门控衰减与增量更新，更在硬件实现上通过块状并行算法达到了工业级性能。对比滑动窗口注意力和原生稀疏注意力，GDN 在显存效率、推理一致性以及长程依赖建模上展现了独特优势。

随着以 Qwen 3.5 和 Kimi Linear 为代表的标杆模型在商业化场景中取得巨大成功，我们可以预见，基于 GDN 的混合架构将成为未来大规模生成式系统的主流选择。它不仅代表了长文本技术的突破，更是通往高效、低碳、普惠 AI 的关键一步。在未来的发展中，随着通道级门控、负特征值追踪以及与测试时训练（TTT）等前沿技术的进一步融合，GDN 将继续刷新序列建模的性能边界。