LogoYet Another 何榜文's Blog

Yet Another 何榜文's Blog

端侧 AI 推理框架周报(2026-05-10 ~ 2026-05-17)
发表于2026-05-17|AI 系统
本周(2026/05/10 ~ 2026/05/17)15 个跟踪仓库中有 10 个产生更新,总计 157 次提交。重点关注 llama.cpp 的 MTP 推测解码支持、ONNX Runtime 的 FlashAttention 20x 加速、ncnn 的 ARM BF16 全线优化以及 ExecuTorch 的 RISC-V 基础设施落地。 tencent/ncnn — 12 commits本周 ncnn 的核心主题是 BF16 存储与计算的深度优化,围绕 ARMv8.4 BF16 指令集展开了一系列 GEMM/卷积/全连接层的优化。 ARMv8.4 BF16 GEMM 优化(#6714)PR #6714 针对 ARMv8.4 架构下的 BF16 GEMM 进行了深度实现。ARMv8.4 引入了 BFMMLA 指令(即 BFloat16 Matrix Multiply-Accumulate),每条指令可完成 2×4×8 的 BF16 矩阵乘加操作。ncnn 此次将 GEMM 核心路径切换至 BFMMLA,...
MNN Vision Encoder 内存泄漏修复与性能分析
发表于2026-05-13|AI 系统
问题背景在 MNN LLM 的 multimodal 推理场景中,当多次调用视觉编码器(vision encoder)时,观察到两个严重问题: 推理延迟随调用次数持续增长(内存泄漏 + 延迟增加) OpenCL 后端下延迟增长尤其严重,15 次调用后延迟膨胀 2.6 倍 本文详细分析三个根因及修复方案,并给出修复前后的真实性能对比数据。 根因一:Vision Encoder 错误共享 LLM 的 KVCache问题分析MNN 的 multimodal 架构中,LLM backbone 和 vision/audio processor 各自维护独立的 RuntimeManager。然而在 Omni::load() 中,processor 的 runtime manager 会调用 setRuntimeHint(),该方法设置了 KVCACHE_INFO hint 指向 LLM 的 KVMeta: 123456// llm.cpp - setRuntimeHintvoid Llm::setRuntimeHint(std::shared_ptr<RuntimeM...
魔法数字 33377335(0x01FD4C37)的真相
发表于2026-05-13|技术分析
真相:DEEPSEEK 的 T9 九宫格编码33377335 在九宫格手机键盘上对应 DEEPSEEK 这 8 个字母。 在传统 T9 手机键盘(九键输入法)上,字母与数字的映射为: 按键 字母 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ 逐字母解码: 字母 按键 在按键上的位置 D 3 第 1 个(DEF → D) E 3 第 2 个(DEF → E) E 3 第 2 个 P 7 第 1 个(PQRS → P) S 7 第 4 个(PQRS → S) E 3 第 2 个 E 3 第 2 个 K 5 第 2 个(JKL → K) 所以 D-E-E-P-S-E-E-K = 3-3-3-7-7-3-3-5 = 33377335 ✅ 这不是一个 IEEE 754 浮点数常量,不是 GPU 工作组大小,而是一个彩蛋数字 🥚 (不过说回来,这个数字的质因数分解 5 × 1931 × 3457 倒是货真价实的——就跟你把 DE...
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)
发表于2026-05-10|AI 系统
本周(5月3日~5月10日),15 个开源仓库中有 9 个产生了更新,共计 168 次提交。以下是各仓库的关键变化及技术分析。 tencent/ncnn:Vulkan 管线缓存、PNNX 功能增强与 x86 修复本周 ncnn 共有 13 次提交,涵盖 Vulkan 后端、PNNX 工具链及 x86 优化等多个方面。 Vulkan 管线持久化缓存最值得关注的变化是 Vulkan 后端新增了管线缓存持久化支持(PR #6702)。此前 ncnn 的 Vulkan 后端每次运行时都需要重新编译 SPIR-V 着色器,这在移动端 GPU(如 Adreno、Mali)上可能导致数秒的启动延迟。新的实现按着色器哈希缓存编译后的管线对象,并附带严格的设备/驱动/着色器校验,确保缓存不会在不同 GPU 间误用。这对生产环境中需要快速冷启动的场景意义重大。 同时,PR #6705 修复了 Vulkan 扩展依赖链的处理——某些扩展存在传递依赖(如 VK_KHR_16bit_storage 依赖 VK_KHR_storage_buffer_storage_class)...
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)
发表于2026-05-03|AI 系统
本周(2026-04-26 ~ 2026-05-03)共跟踪 15 个仓库,其中 9 个仓库有更新,合计 165 次提交。以下是对各仓库关键变化的详细解读。 本周无更新的仓库: tencent/ncnn、airockchip/rknn-toolkit2、airockchip/rknn-llm、futz12/ncnn_llm、mlc-ai/mlc-llm、ml-explore/mlx-lm ggml-org/llama.cpp(30 commits)本周 llama.cpp 依然保持了最高的活动量,涵盖后端优化、新硬件支持和用户界面重构。 CUDA / GPU 后端 多 GPU PCI Bus ID 去重修复(#22533):修复了当多个 GPU 共享 PCI Bus ID 时,CUDA 设备检测 OOM 导致仅发现 1 张卡而忽略其他 3 张的严重 bug。同时同步更新了 HIP 和 MUSA 宏的支持。 Flash Attention Pascal 架构修复(#22541):Tile-base...
端侧 AI 推理框架周报(2026-04-22 ~ 2026-04-29)
发表于2026-04-29|AI 系统
本周跟踪了 15 个主流端侧 AI 推理框架的开源仓库,其中 9 个有显著更新,共产生 170 次提交。以下是各仓库的重点变化分析。 1. alibaba/MNN — 4 commitsVulkan 后端 no-subgroup 降级分支MNN 本周在 Vulkan 后端的 VulkanLinearAttention 和 Conv1x1-Decode 的 gemv 操作中引入了 no-subgroup 降级分支。这是一个非常实用的兼容性改进: 背景:Vulkan subgroup(子组)操作是现代 GPU 做 warp-level 协作的高效方式,但并非所有 Vulkan 实现都支持(特别是 Mesa 驱动的某些 Intel GPU、部分移动端 Mali GPU)。 实现思路:为主路径保留 subgroup 优化的高性能路径,同时为不支持的设备提供了纯线程级替代实现。使得 LLM decode 阶段的注意力计算在更广泛的 Vulkan 设备上可用。 这种”高性能路径 + 通用降级”的架构思路值得借鉴,尤其对于需要跨平台部署的推理框架而言。 CPU ARMv8.2&#...
DeepSeek-V4 架构全解:百万token时代的效率革命
发表于2026-04-26|AIDeep Learning
2026年4月24日,DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4,距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座,而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。 一、模型规格速览V4系列分为两个版本: 规格 V4-Flash V4-Pro 总参数 284B 1.6T 激活参数 13B 49B 层数 43 61 Hidden Dim 4096 7168 Routed Experts 256 384 Shared Expert 1 1 每token激活专家 6 6 预训练Tokens 32T 33T 模型权重 160GB (FP4+FP8混合) 861GB (FP4+FP8混合) V4-Pro 成为当下公开权重最大的开源模型,全面支持 1M token 原生上下文。 在1M上下文场景下,效率对比达到惊人水平: V4-Pro:单token FLOPs 仅为 V3.2 的 **27%**,KV cache 仅为 10% V4-Flash:单toke...
ld 加载器如何规避 glibc 版本冲突:交叉编译的底层机制解析
发表于2026-03-26|系统编程
问题背景在 Linux 交叉编译场景中,开发者经常遇到这样的困境: 12$ ./myapp./myapp: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found 这是因为编译环境的 glibc 版本(如 2.34)高于运行环境的 glibc 版本(如 2.31)。但奇怪的是,作为负责加载所有动态库的 ld 加载器(/lib64/ld-linux-x86-64.so.2),它自己却从不受 glibc 版本问题的困扰。本文将深入解析这一现象背后的技术原理。 一、符号版本化的双刃剑1.1 glibc 的符号版本机制glibc 使用符号版本化(Symbol Versioning)来保持向后兼容。以 memcpy 为例: 123// glibc 内部定义__asm__(".symver memcpy, memcpy@GLIBC_2.2.5");__asm__(".symver memcpy, memcpy@@GLIBC_2.14"); // 默认版本 当程序...
Torch Chunked Gated Delta Rule 并行优化指南
发表于2026-03-19|AI 系统
引言在实现 Chunked Gated Delta Rule 时,原始代码中存在两个明显的性能瓶颈,阻碍了 GPU 并行计算的高效执行。本文将详细分析这两个问题,并提供针对性的优化方案。 原始代码分析以下是原始实现中的关键代码片段: 12345678910111213141516171819202122232425262728293031323334def torch_chunk_gated_delta_rule( query, key, value, g, beta, chunk_size=64, initial_state=None, output_final_state=False, use_qk_l2norm_in_kernel=False,): # ... 省略初始化和 reshape 代码 ... mask = torch.triu(torch.ones(chunk_size, chunk_size, dtype=torch.bool, device=query.device), diagonal=0) # chun...
SonicMoE - 加速 MoE 模型的 IO 与 Tile 感知优化
发表于2026-03-18|论文解读AI 系统
SonicMoE: 加速 MoE 模型的 IO 与 Tile 感知优化 论文地址: https://arxiv.org/abs/2512.14080代码开源: https://github.com/Dao-AILab/sonic-moe作者: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao 背景:MoE 模型的趋势与挑战近年来,混合专家模型 (Mixture of Experts, MoE) 已成为扩展大语言模型的主流架构。与 Dense 模型相比,MoE 可以在不显著增加计算成本的前提下大幅提升参数量。 MoE 的两个核心趋势从最新的开源模型(如 DeepSeek-V3、Qwen3 MoE、Kimi K2)可以看出两个明显的趋势: 细粒度 (Fine-grained): 专家的中间维度越来越小 Mixtral 8x22B: d/n = 0.38 DeepSeek-V3: d/n = 3.50 Qwen3-Next: d/n = 4.00 ...
12…5
avatar
何榜文
文章
47
标签
81
分类
8
Follow Me
公告
One week is 2% of a year
最新文章
端侧 AI 推理框架周报(2026-05-10 ~ 2026-05-17)2026-05-17
MNN Vision Encoder 内存泄漏修复与性能分析2026-05-13
魔法数字 33377335(0x01FD4C37)的真相2026-05-13
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)2026-05-10
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)2026-05-03
分类
  • AI1
    • Deep Learning1
  • AI 系统6
  • Effective STL6
  • 技术分析1
  • 系统编程1
  • 论文解读1
    • AI 系统1
标签
Transformer PyTorch MHA ONNX Vision Encoder bfloat16 bing-search-api TVM 综述 FlashAttention2 性能优化 HuggingFace VLM MQA 数值精度 executorch Vector clip 大模型 ncnn transformer GPU RMSNorm LLM 多模态大模型 Containers MNN 动态链接 GQA openclaw ViT software engineer 魔法数字 Transformers cosplay opencl onnxruntime TTS LayerNorm C++
归档
  • 五月 2026 5
  • 四月 2026 2
  • 三月 2026 8
  • 七月 2025 1
  • 六月 2025 5
  • 四月 2025 1
  • 三月 2025 2
  • 二月 2025 4
网站信息
文章数目 :
47
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By 何榜文框架 Hexo 7.3.0|主题 Butterfly 5.5.4