Yet Another 何榜文's Blog

发表于2026-04-26|AIDeep Learning

2026年4月24日，DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4，距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座，而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。一、模型规格速览V4系列分为两个版本：规格 V4-Flash V4-Pro 总参数 284B 1.6T 激活参数 13B 49B 层数 43 61 Hidden Dim 4096 7168 Routed Experts 256 384 Shared Expert 1 1 每token激活专家 6 6 预训练Tokens 32T 33T 模型权重 160GB (FP4+FP8混合) 861GB (FP4+FP8混合) V4-Pro 成为当下公开权重最大的开源模型，全面支持 1M token 原生上下文。在1M上下文场景下，效率对比达到惊人水平： V4-Pro：单token FLOPs 仅为 V3.2 的 **27%**，KV cache 仅为 10% V4-Flash：单toke...

ld 加载器如何规避 glibc 版本冲突：交叉编译的底层机制解析

发表于2026-03-26|系统编程

问题背景在 Linux 交叉编译场景中，开发者经常遇到这样的困境： 12$ ./myapp./myapp: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found 这是因为编译环境的 glibc 版本（如 2.34）高于运行环境的 glibc 版本（如 2.31）。但奇怪的是，作为负责加载所有动态库的 ld 加载器（/lib64/ld-linux-x86-64.so.2），它自己却从不受 glibc 版本问题的困扰。本文将深入解析这一现象背后的技术原理。一、符号版本化的双刃剑1.1 glibc 的符号版本机制glibc 使用符号版本化（Symbol Versioning）来保持向后兼容。以 memcpy 为例： 123// glibc 内部定义__asm__(".symver memcpy, memcpy@GLIBC_2.2.5");__asm__(".symver memcpy, memcpy@@GLIBC_2.14"); // 默认版本当程序...

Torch Chunked Gated Delta Rule 并行优化指南

发表于2026-03-19|AI 系统

引言在实现 Chunked Gated Delta Rule 时，原始代码中存在两个明显的性能瓶颈，阻碍了 GPU 并行计算的高效执行。本文将详细分析这两个问题，并提供针对性的优化方案。原始代码分析以下是原始实现中的关键代码片段： 12345678910111213141516171819202122232425262728293031323334def torch_chunk_gated_delta_rule( query, key, value, g, beta, chunk_size=64, initial_state=None, output_final_state=False, use_qk_l2norm_in_kernel=False,): # ... 省略初始化和 reshape 代码 ... mask = torch.triu(torch.ones(chunk_size, chunk_size, dtype=torch.bool, device=query.device), diagonal=0) # chun...

SonicMoE - 加速 MoE 模型的 IO 与 Tile 感知优化

发表于2026-03-18|论文解读AI 系统

SonicMoE: 加速 MoE 模型的 IO 与 Tile 感知优化论文地址: https://arxiv.org/abs/2512.14080代码开源: https://github.com/Dao-AILab/sonic-moe作者: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao 背景：MoE 模型的趋势与挑战近年来，混合专家模型 (Mixture of Experts, MoE) 已成为扩展大语言模型的主流架构。与 Dense 模型相比，MoE 可以在不显著增加计算成本的前提下大幅提升参数量。 MoE 的两个核心趋势从最新的开源模型（如 DeepSeek-V3、Qwen3 MoE、Kimi K2）可以看出两个明显的趋势：细粒度 (Fine-grained): 专家的中间维度越来越小 Mixtral 8x22B: d/n = 0.38 DeepSeek-V3: d/n = 3.50 Qwen3-Next: d/n = 4.00 ...

ARM 架构深度学习推理指令集的演进与技术范式分析报告

发表于2026-03-13

ARM 架构深度学习推理指令集的演进与技术范式分析报告在现代计算架构的演进过程中，ARM 架构已从最初的嵌入式低功耗设计，逐步成长为覆盖移动端、数据中心、超级计算机以及边缘计算的全能型架构。这一转型的核心驱动力之一，便是为了应对深度学习（Deep Learning）和人工智能（AI）推理任务对计算效率、算力密度以及能效比的极致追求。从最初的通用向量扩展 NEON，到专为量化计算设计的 DotProd 和 I8MM，再到代表未来高性能计算范式的可伸缩矢量扩展（SVE）与可伸缩矩阵扩展（SME），ARM 指令集架构（ISA）的演变深刻地反映了计算范式从标量向向量，再由向量向矩阵的重大跃迁。第一章 ARM 深度学习指令集的历史演进脉络ARM 架构的深度学习推理能力并非一蹴而就，而是伴随着 ARMv7 到 ARMv9 的架构更迭，经历了数个关键的技术周期。 1.1 初期探索：NEON 与通用 SIMD 时代在深度学习爆发之前，多媒体处理、图形渲染和音频编解码是并行计算的主要需求。2011年，ARM 在 ARMv7-A 架构中正式引入了 Advanced SIMD 技术，即 NEON ...

软件工程中的 SOLID 原则

发表于2026-03-12

在软件工程中，SOLID原则就像是建筑工程中的力学规范。它们不是硬性的语法规定，而是为了解决软件开发中最为头疼的问题：代码的腐化（Code Rot）。当你的代码变得难以维护、改一处坏十处、或者无法测试时，通常是因为违背了这些原则。下面我们就逐一拆解这五个核心原则。单一职责原则和接口隔离原则：如何划分模块和接口，即保持简单精细里式替换原则和依赖倒置原则：设计类与类之间的关系，面向抽象和多态开闭原则：最终的设计目标，易于拓展的软件架构 S - 单一职责原则 (SRP) 出发点：一个类应该只有一个引起它变化的原因。解决问题：高耦合。如果一个类承担了太多的功能（比如既处理数据逻辑，又处理文件保存），那么当保存格式变化时，可能会无意中破坏数据逻辑的代码。核心痛点：如果你在 Employee 类里既写薪水计算，又写 HTML 报表生成，那么当财务规则改变或 UI 风格改变时，你都得去改同一个文件，这会大大增加回归测试的压力。个人理解：SRP 告诉我们如果类写得太大的话，我们应该如何拆分这个类 / 函数。与之相关的一个实践是，函数最好能够被一个屏幕放下。 ...

Chunkwise 并行算法 —— 线性注意力

发表于2026-03-06

为了在现代硬件上实现高效训练，Mamba2 和 DeltaNet 都通过分块并行（Chunkwise Parallel）策略将 $O(L)$ 的线性递归改写为矩阵迭代形式。这种变换的核心思想是将长序列划分为大小为 $C$ 的块，利用矩阵乘法（Matmul）处理块内计算，通过隐藏状态传递块间信息。 1. Mamba2：状态空间二元性（SSD）的矩阵迭代推导Mamba2 的核心贡献在于证明了选择性 SSM 实际上等价于一种带有特殊掩码的线性注意力机制。 1.1 从递归到块内状态展开Mamba2 的状态更新公式（矩阵形式）为： $$S_t = \alpha_t S_{t-1} + v_t k_t^T \in \mathbb{R}^{d_v \times d_k}, \quad o_t = S_t q_t \in \mathbb{R}^{d_v}$$ 其中 $\alpha_t \in (0,1)$ 是数据相关的衰减因子。定义 $\gamma_j = \prod_{i=1}^j \alpha_i$ 为全局累积衰减，是一个标量因子。如果只考虑端侧 C...

Gated Delta Net

发表于2026-03-05

门控增量网络（Gated Delta Network）的技术原理、性能优势与工业应用综述随着大语言模型（LLM）在长文本处理、多轮对话以及复杂指令遵循等任务中的广泛应用，传统 Transformer 架构所面临的计算挑战日益凸显。自注意力机制（Self-Attention）的计算复杂度与内存占用随序列长度 $L$ 呈二次方增长（$O(L^2)$），这一“效率之墙”严重制约了模型处理超长上下文的能力。为了突破这一瓶颈，研究界探索了多种亚线性复杂度的替代方案，其中门控增量网络（Gated Delta Network，简称 GDN 或 Gated DeltaNet）作为线性 Transformer 的演进版本，凭借其在记忆精确度与硬件效率之间的卓越平衡，正逐渐成为新一代长文本模型的核心技术。第一部分：Gated Delta Network 的核心原理与理论演进GDN 的设计灵感源于对现有线性递归模型局限性的深度审视。在线性 Transformer 的语境下，模型通常被视为一种基于外积的键值关联记忆（Outer-product-based key-value associative...

search-api-summary

发表于2026-03-04

搜索 API 价格汇总 API 免费额度收费额度其它 serpapi 250 次调用/月高级版 1000 次调用/$25/月 API 汇总较多 grounding-bing ❌ $14/1000次调用 bing-search-api 已经停用，目前使用 grounding with bing 提供服务百度智能云·千帆平台 100次调用/天￥36/1000次调用优先扣除免费额度，每天最多调用 100’000 次（3600 元）腾讯云 ❌ ¥30/1000次调用高级版 ¥46/1000次调用，基于搜狗搜索引擎智谱搜索API ❌ ¥10/1000次调用 pro 版 ¥30，pro_sougou 版 ¥50。支持意图分析，融合大模型分析选择到搜索结果中夸克搜索 ❌ ≥ ¥25 似乎只有对公服务，而且页面有点奇葩，销售感很重阿里云 IQS 搜索服务试用 1000次 / 15天 ¥42/1000次调用仅有试用版博查搜索...

在 RKNN2 中将 ViT 的卷积层转换为矩阵乘法

发表于2025-07-03

背景在上一篇将 ViT 的第一个卷积层转为 MatMul，要求步长和卷积核相等中，我们介绍了如何将 ViT 的第一层卷积转换为矩阵乘法。在这篇文章中，我们将讨论这种变化在 RKNN2 工具链里带来的性能收益。测试模型设备输入尺寸平均推理时间 (ms) 卷积层 Apple M4-CPU 1x3x384x384 3.32 ± 0.50 Cortex A57-CPU 1x3x384x384 TBD RKNN 1x3x384x384 TBD 将卷积层转为线性层 Apple M4-CPU 1x576x768 2.82 ± 0.43 Cortex A57-CPU 1x576x768 TBD RKNN 1x576x768 TBD 其他代码见 GitHub。