LogoYet Another 何榜文's Blog

Yet Another 何榜文's Blog

端侧 AI 推理框架周报(2026-05-17 ~ 2026-05-23)
发表于2026-05-24|AI 系统
本周(2026-05-17 ~ 2026-05-23)9 个仓库共产生 196 次提交,涵盖端侧推理、量化、后端优化、新模型支持等多个方向。 tencent/ncnn — 18 commits本周 ncnn 在 ARM/NEON 优化、RISC-V 后端和工具链方面持续发力。 ARM SDPA(Scaled Dot-Product Attention)Layer新增 ARM 后端 SDPA 层实现(#6698),这是 ncnn 在 LLM 推理方向的重要进展。SDPA 将 QKV 投影后的 attention 计算融合为单一算子,避免了多次 kernel launch 和中间 tensor 的读写开销,对端侧 LLM 的 decode 阶段延迟改善明显。 ARM SIMD 激活函数与量化風的彷徨 贡献了 erf、elu、gelu、selu 在 ARM 上的 SIMD 实现(#6605),补齐了 ARM NEON 后端在激活函数方面的性能短板。Justin Fung 提交了两项 RISC-V Vector 1.0 的量化/反量化实现(#6695,...
端侧 AI 推理框架周报(2026-05-10 ~ 2026-05-17)
发表于2026-05-17|AI 系统
本周(2026/05/10 ~ 2026/05/17)15 个跟踪仓库中有 10 个产生更新,总计 157 次提交。重点关注 llama.cpp 的 MTP 推测解码支持、ONNX Runtime 的 FlashAttention 20x 加速、ncnn 的 ARM BF16 全线优化以及 ExecuTorch 的 RISC-V 基础设施落地。 tencent/ncnn — 12 commits本周 ncnn 的核心主题是 BF16 存储与计算的深度优化,围绕 ARMv8.4 BF16 指令集展开了一系列 GEMM/卷积/全连接层的优化。 ARMv8.4 BF16 GEMM 优化(#6714)PR #6714 针对 ARMv8.4 架构下的 BF16 GEMM 进行了深度实现。ARMv8.4 引入了 BFMMLA 指令(即 BFloat16 Matrix Multiply-Accumulate),每条指令可完成 2×4×8 的 BF16 矩阵乘加操作。ncnn 此次将 GEMM 核心路径切换至 BFMMLA,...
MNN Vision Encoder 内存泄漏修复与性能分析
发表于2026-05-13|AI 系统
问题背景在 MNN LLM 的 multimodal 推理场景中,当多次调用视觉编码器(vision encoder)时,观察到两个严重问题: 推理延迟随调用次数持续增长(内存泄漏 + 延迟增加) OpenCL 后端下延迟增长尤其严重,15 次调用后延迟膨胀 2.6 倍 本文详细分析三个根因及修复方案,并给出修复前后的真实性能对比数据。 根因一:Vision Encoder 错误共享 LLM 的 KVCache问题分析MNN 的 multimodal 架构中,LLM backbone 和 vision/audio processor 各自维护独立的 RuntimeManager。然而在 Omni::load() 中,processor 的 runtime manager 会调用 setRuntimeHint(),该方法设置了 KVCACHE_INFO hint 指向 LLM 的 KVMeta: 123456// llm.cpp - setRuntimeHintvoid Llm::setRuntimeHint(std::shared_ptr<RuntimeM...
魔法数字 33377335(0x01FD4C37)的真相
发表于2026-05-13|技术分析
真相:DEEPSEEK 的 T9 九宫格编码33377335 在九宫格手机键盘上对应 DEEPSEEK 这 8 个字母。 在传统 T9 手机键盘(九键输入法)上,字母与数字的映射为: 按键 字母 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ 逐字母解码: 字母 按键 在按键上的位置 D 3 第 1 个(DEF → D) E 3 第 2 个(DEF → E) E 3 第 2 个 P 7 第 1 个(PQRS → P) S 7 第 4 个(PQRS → S) E 3 第 2 个 E 3 第 2 个 K 5 第 2 个(JKL → K) 所以 D-E-E-P-S-E-E-K = 3-3-3-7-7-3-3-5 = 33377335 ✅ 这不是一个 IEEE 754 浮点数常量,不是 GPU 工作组大小,而是一个彩蛋数字 🥚 (不过说回来,这个数字的质因数分解 5 × 1931 × 3457 倒是货真价实的——就跟你把 DE...
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)
发表于2026-05-10|AI 系统
本周(5月3日~5月10日),15 个开源仓库中有 9 个产生了更新,共计 168 次提交。以下是各仓库的关键变化及技术分析。 tencent/ncnn:Vulkan 管线缓存、PNNX 功能增强与 x86 修复本周 ncnn 共有 13 次提交,涵盖 Vulkan 后端、PNNX 工具链及 x86 优化等多个方面。 Vulkan 管线持久化缓存最值得关注的变化是 Vulkan 后端新增了管线缓存持久化支持(PR #6702)。此前 ncnn 的 Vulkan 后端每次运行时都需要重新编译 SPIR-V 着色器,这在移动端 GPU(如 Adreno、Mali)上可能导致数秒的启动延迟。新的实现按着色器哈希缓存编译后的管线对象,并附带严格的设备/驱动/着色器校验,确保缓存不会在不同 GPU 间误用。这对生产环境中需要快速冷启动的场景意义重大。 同时,PR #6705 修复了 Vulkan 扩展依赖链的处理——某些扩展存在传递依赖(如 VK_KHR_16bit_storage 依赖 VK_KHR_storage_buffer_storage_class)...
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)
发表于2026-05-03|AI 系统
本周(2026-04-26 ~ 2026-05-03)共跟踪 15 个仓库,其中 9 个仓库有更新,合计 165 次提交。以下是对各仓库关键变化的详细解读。 本周无更新的仓库: tencent/ncnn、airockchip/rknn-toolkit2、airockchip/rknn-llm、futz12/ncnn_llm、mlc-ai/mlc-llm、ml-explore/mlx-lm ggml-org/llama.cpp(30 commits)本周 llama.cpp 依然保持了最高的活动量,涵盖后端优化、新硬件支持和用户界面重构。 CUDA / GPU 后端 多 GPU PCI Bus ID 去重修复(#22533):修复了当多个 GPU 共享 PCI Bus ID 时,CUDA 设备检测 OOM 导致仅发现 1 张卡而忽略其他 3 张的严重 bug。同时同步更新了 HIP 和 MUSA 宏的支持。 Flash Attention Pascal 架构修复(#22541):Tile-base...
端侧 AI 推理框架周报(2026-04-22 ~ 2026-04-29)
发表于2026-04-29|AI 系统
本周跟踪了 15 个主流端侧 AI 推理框架的开源仓库,其中 9 个有显著更新,共产生 170 次提交。以下是各仓库的重点变化分析。 1. alibaba/MNN — 4 commitsVulkan 后端 no-subgroup 降级分支MNN 本周在 Vulkan 后端的 VulkanLinearAttention 和 Conv1x1-Decode 的 gemv 操作中引入了 no-subgroup 降级分支。这是一个非常实用的兼容性改进: 背景:Vulkan subgroup(子组)操作是现代 GPU 做 warp-level 协作的高效方式,但并非所有 Vulkan 实现都支持(特别是 Mesa 驱动的某些 Intel GPU、部分移动端 Mali GPU)。 实现思路:为主路径保留 subgroup 优化的高性能路径,同时为不支持的设备提供了纯线程级替代实现。使得 LLM decode 阶段的注意力计算在更广泛的 Vulkan 设备上可用。 这种”高性能路径 + 通用降级”的架构思路值得借鉴,尤其对于需要跨平台部署的推理框架而言。 CPU ARMv8.2&#...
DeepSeek-V4 架构全解:百万token时代的效率革命
发表于2026-04-26|AIDeep Learning
2026年4月24日,DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4,距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座,而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。 一、模型规格速览V4系列分为两个版本: 规格 V4-Flash V4-Pro 总参数 284B 1.6T 激活参数 13B 49B 层数 43 61 Hidden Dim 4096 7168 Routed Experts 256 384 Shared Expert 1 1 每token激活专家 6 6 预训练Tokens 32T 33T 模型权重 160GB (FP4+FP8混合) 861GB (FP4+FP8混合) V4-Pro 成为当下公开权重最大的开源模型,全面支持 1M token 原生上下文。 在1M上下文场景下,效率对比达到惊人水平: V4-Pro:单token FLOPs 仅为 V3.2 的 **27%**,KV cache 仅为 10% V4-Flash:单toke...
ld 加载器如何规避 glibc 版本冲突:交叉编译的底层机制解析
发表于2026-03-26|系统编程
问题背景在 Linux 交叉编译场景中,开发者经常遇到这样的困境: 12$ ./myapp./myapp: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found 这是因为编译环境的 glibc 版本(如 2.34)高于运行环境的 glibc 版本(如 2.31)。但奇怪的是,作为负责加载所有动态库的 ld 加载器(/lib64/ld-linux-x86-64.so.2),它自己却从不受 glibc 版本问题的困扰。本文将深入解析这一现象背后的技术原理。 一、符号版本化的双刃剑1.1 glibc 的符号版本机制glibc 使用符号版本化(Symbol Versioning)来保持向后兼容。以 memcpy 为例: 123// glibc 内部定义__asm__(".symver memcpy, memcpy@GLIBC_2.2.5");__asm__(".symver memcpy, memcpy@@GLIBC_2.14"); // 默认版本 当程序...
Torch Chunked Gated Delta Rule 并行优化指南
发表于2026-03-19|AI 系统
引言在实现 Chunked Gated Delta Rule 时,原始代码中存在两个明显的性能瓶颈,阻碍了 GPU 并行计算的高效执行。本文将详细分析这两个问题,并提供针对性的优化方案。 原始代码分析以下是原始实现中的关键代码片段: 12345678910111213141516171819202122232425262728293031323334def torch_chunk_gated_delta_rule( query, key, value, g, beta, chunk_size=64, initial_state=None, output_final_state=False, use_qk_l2norm_in_kernel=False,): # ... 省略初始化和 reshape 代码 ... mask = torch.triu(torch.ones(chunk_size, chunk_size, dtype=torch.bool, device=query.device), diagonal=0) # chun...
12…5
avatar
何榜文
文章
48
标签
82
分类
8
Follow Me
公告
One week is 2% of a year
最新文章
端侧 AI 推理框架周报(2026-05-17 ~ 2026-05-23)2026-05-24
端侧 AI 推理框架周报(2026-05-10 ~ 2026-05-17)2026-05-17
MNN Vision Encoder 内存泄漏修复与性能分析2026-05-13
魔法数字 33377335(0x01FD4C37)的真相2026-05-13
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)2026-05-10
分类
  • AI1
    • Deep Learning1
  • AI 系统7
  • Effective STL6
  • 技术分析1
  • 系统编程1
  • 论文解读1
    • AI 系统1
标签
Transformer LLaMa2 Vision Transformer opencl 推理框架 executorch Qwen2.5-VL 性能优化 video summarization std::threads Containers onnxruntime-genai ViT DeepSeek Linear Attention self-attention Python Vector ONNX deepseek onnxruntime Algorithms Whisper CUDA 综述 String Qwen llama.cpp 并行计算 HuggingFace LLM clip 魔法数字 加载器 arm Iterator 深度学习 glibc 周报 Linux
归档
  • 五月 2026 6
  • 四月 2026 2
  • 三月 2026 8
  • 七月 2025 1
  • 六月 2025 5
  • 四月 2025 1
  • 三月 2025 2
  • 二月 2025 4
网站信息
文章数目 :
48
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By 何榜文框架 Hexo 7.3.0|主题 Butterfly 5.5.4