Yet Another 何榜文's Blog

端侧 AI 推理框架周报（2026-05-17 ~ 2026-05-23）

发表于2026-05-24|AI 系统

本周（2026-05-17 ~ 2026-05-23）9 个仓库共产生 196 次提交，涵盖端侧推理、量化、后端优化、新模型支持等多个方向。 tencent/ncnn — 18 commits本周 ncnn 在 ARM/NEON 优化、RISC-V 后端和工具链方面持续发力。 ARM SDPA（Scaled Dot-Product Attention）Layer新增 ARM 后端 SDPA 层实现（#6698），这是 ncnn 在 LLM 推理方向的重要进展。SDPA 将 QKV 投影后的 attention 计算融合为单一算子，避免了多次 kernel launch 和中间 tensor 的读写开销，对端侧 LLM 的 decode 阶段延迟改善明显。 ARM SIMD 激活函数与量化風的彷徨贡献了 erf、elu、gelu、selu 在 ARM 上的 SIMD 实现（#6605），补齐了 ARM NEON 后端在激活函数方面的性能短板。Justin Fung 提交了两项 RISC-V Vector 1.0 的量化/反量化实现（#6695,...

端侧 AI 推理框架周报（2026-05-10 ~ 2026-05-17）

发表于2026-05-17|AI 系统

本周（2026/05/10 ~ 2026/05/17）15 个跟踪仓库中有 10 个产生更新，总计 157 次提交。重点关注 llama.cpp 的 MTP 推测解码支持、ONNX Runtime 的 FlashAttention 20x 加速、ncnn 的 ARM BF16 全线优化以及 ExecuTorch 的 RISC-V 基础设施落地。 tencent/ncnn — 12 commits本周 ncnn 的核心主题是 BF16 存储与计算的深度优化，围绕 ARMv8.4 BF16 指令集展开了一系列 GEMM/卷积/全连接层的优化。 ARMv8.4 BF16 GEMM 优化（#6714）PR #6714 针对 ARMv8.4 架构下的 BF16 GEMM 进行了深度实现。ARMv8.4 引入了 BFMMLA 指令（即 BFloat16 Matrix Multiply-Accumulate），每条指令可完成 2×4×8 的 BF16 矩阵乘加操作。ncnn 此次将 GEMM 核心路径切换至 BFMMLA，...

MNN Vision Encoder 内存泄漏修复与性能分析

发表于2026-05-13|AI 系统

问题背景在 MNN LLM 的 multimodal 推理场景中，当多次调用视觉编码器（vision encoder）时，观察到两个严重问题：推理延迟随调用次数持续增长（内存泄漏 + 延迟增加） OpenCL 后端下延迟增长尤其严重，15 次调用后延迟膨胀 2.6 倍本文详细分析三个根因及修复方案，并给出修复前后的真实性能对比数据。根因一：Vision Encoder 错误共享 LLM 的 KVCache问题分析MNN 的 multimodal 架构中，LLM backbone 和 vision/audio processor 各自维护独立的 RuntimeManager。然而在 Omni::load() 中，processor 的 runtime manager 会调用 setRuntimeHint()，该方法设置了 KVCACHE_INFO hint 指向 LLM 的 KVMeta： 123456// llm.cpp - setRuntimeHintvoid Llm::setRuntimeHint(std::shared_ptr<RuntimeM...

魔法数字 33377335（0x01FD4C37）的真相

发表于2026-05-13|技术分析

真相：DEEPSEEK 的 T9 九宫格编码33377335 在九宫格手机键盘上对应 DEEPSEEK 这 8 个字母。在传统 T9 手机键盘（九键输入法）上，字母与数字的映射为：按键字母 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ 逐字母解码：字母按键在按键上的位置 D 3 第 1 个（DEF → D） E 3 第 2 个（DEF → E） E 3 第 2 个 P 7 第 1 个（PQRS → P） S 7 第 4 个（PQRS → S） E 3 第 2 个 E 3 第 2 个 K 5 第 2 个（JKL → K）所以 D-E-E-P-S-E-E-K = 3-3-3-7-7-3-3-5 = 33377335 ✅ 这不是一个 IEEE 754 浮点数常量，不是 GPU 工作组大小，而是一个彩蛋数字 🥚 （不过说回来，这个数字的质因数分解 5 × 1931 × 3457 倒是货真价实的——就跟你把 DE...

端侧 AI 推理框架周报（2026-05-03 ~ 2026-05-10）

发表于2026-05-10|AI 系统

本周（5月3日~5月10日），15 个开源仓库中有 9 个产生了更新，共计 168 次提交。以下是各仓库的关键变化及技术分析。 tencent/ncnn：Vulkan 管线缓存、PNNX 功能增强与 x86 修复本周 ncnn 共有 13 次提交，涵盖 Vulkan 后端、PNNX 工具链及 x86 优化等多个方面。 Vulkan 管线持久化缓存最值得关注的变化是 Vulkan 后端新增了管线缓存持久化支持（PR #6702）。此前 ncnn 的 Vulkan 后端每次运行时都需要重新编译 SPIR-V 着色器，这在移动端 GPU（如 Adreno、Mali）上可能导致数秒的启动延迟。新的实现按着色器哈希缓存编译后的管线对象，并附带严格的设备/驱动/着色器校验，确保缓存不会在不同 GPU 间误用。这对生产环境中需要快速冷启动的场景意义重大。同时，PR #6705 修复了 Vulkan 扩展依赖链的处理——某些扩展存在传递依赖（如 VK_KHR_16bit_storage 依赖 VK_KHR_storage_buffer_storage_class）...

端侧 AI 推理框架周报（2026-04-26 ~ 2026-05-03）

发表于2026-05-03|AI 系统

本周（2026-04-26 ~ 2026-05-03）共跟踪 15 个仓库，其中 9 个仓库有更新，合计 165 次提交。以下是对各仓库关键变化的详细解读。本周无更新的仓库： tencent/ncnn、airockchip/rknn-toolkit2、airockchip/rknn-llm、futz12/ncnn_llm、mlc-ai/mlc-llm、ml-explore/mlx-lm ggml-org/llama.cpp（30 commits）本周 llama.cpp 依然保持了最高的活动量，涵盖后端优化、新硬件支持和用户界面重构。 CUDA / GPU 后端多 GPU PCI Bus ID 去重修复（#22533）：修复了当多个 GPU 共享 PCI Bus ID 时，CUDA 设备检测 OOM 导致仅发现 1 张卡而忽略其他 3 张的严重 bug。同时同步更新了 HIP 和 MUSA 宏的支持。 Flash Attention Pascal 架构修复（#22541）：Tile-base...

端侧 AI 推理框架周报（2026-04-22 ~ 2026-04-29）

发表于2026-04-29|AI 系统

本周跟踪了 15 个主流端侧 AI 推理框架的开源仓库，其中 9 个有显著更新，共产生 170 次提交。以下是各仓库的重点变化分析。 1. alibaba/MNN — 4 commitsVulkan 后端 no-subgroup 降级分支MNN 本周在 Vulkan 后端的 VulkanLinearAttention 和 Conv1x1-Decode 的 gemv 操作中引入了 no-subgroup 降级分支。这是一个非常实用的兼容性改进：背景：Vulkan subgroup（子组）操作是现代 GPU 做 warp-level 协作的高效方式，但并非所有 Vulkan 实现都支持（特别是 Mesa 驱动的某些 Intel GPU、部分移动端 Mali GPU）。实现思路：为主路径保留 subgroup 优化的高性能路径，同时为不支持的设备提供了纯线程级替代实现。使得 LLM decode 阶段的注意力计算在更广泛的 Vulkan 设备上可用。这种”高性能路径 + 通用降级”的架构思路值得借鉴，尤其对于需要跨平台部署的推理框架而言。 CPU ARMv8.2&#...

DeepSeek-V4 架构全解：百万token时代的效率革命

发表于2026-04-26|AIDeep Learning

2026年4月24日，DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4，距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座，而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。一、模型规格速览V4系列分为两个版本：规格 V4-Flash V4-Pro 总参数 284B 1.6T 激活参数 13B 49B 层数 43 61 Hidden Dim 4096 7168 Routed Experts 256 384 Shared Expert 1 1 每token激活专家 6 6 预训练Tokens 32T 33T 模型权重 160GB (FP4+FP8混合) 861GB (FP4+FP8混合) V4-Pro 成为当下公开权重最大的开源模型，全面支持 1M token 原生上下文。在1M上下文场景下，效率对比达到惊人水平： V4-Pro：单token FLOPs 仅为 V3.2 的 **27%**，KV cache 仅为 10% V4-Flash：单toke...

ld 加载器如何规避 glibc 版本冲突：交叉编译的底层机制解析

发表于2026-03-26|系统编程

问题背景在 Linux 交叉编译场景中，开发者经常遇到这样的困境： 12$ ./myapp./myapp: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found 这是因为编译环境的 glibc 版本（如 2.34）高于运行环境的 glibc 版本（如 2.31）。但奇怪的是，作为负责加载所有动态库的 ld 加载器（/lib64/ld-linux-x86-64.so.2），它自己却从不受 glibc 版本问题的困扰。本文将深入解析这一现象背后的技术原理。一、符号版本化的双刃剑1.1 glibc 的符号版本机制glibc 使用符号版本化（Symbol Versioning）来保持向后兼容。以 memcpy 为例： 123// glibc 内部定义__asm__(".symver memcpy, memcpy@GLIBC_2.2.5");__asm__(".symver memcpy, memcpy@@GLIBC_2.14"); // 默认版本当程序...

Torch Chunked Gated Delta Rule 并行优化指南

发表于2026-03-19|AI 系统

引言在实现 Chunked Gated Delta Rule 时，原始代码中存在两个明显的性能瓶颈，阻碍了 GPU 并行计算的高效执行。本文将详细分析这两个问题，并提供针对性的优化方案。原始代码分析以下是原始实现中的关键代码片段： 12345678910111213141516171819202122232425262728293031323334def torch_chunk_gated_delta_rule( query, key, value, g, beta, chunk_size=64, initial_state=None, output_final_state=False, use_qk_l2norm_in_kernel=False,): # ... 省略初始化和 reshape 代码 ... mask = torch.triu(torch.ones(chunk_size, chunk_size, dtype=torch.bool, device=query.device), diagonal=0) # chun...