LogoYet Another 何榜文's Blog

Yet Another 何榜文's Blog

MNN Vision Encoder 内存泄漏修复与性能分析
发表于2026-05-13|AI 系统
问题背景在 MNN LLM 的 multimodal 推理场景中,当多次调用视觉编码器(vision encoder)时,观察到两个严重问题: 推理延迟随调用次数持续增长(内存泄漏 + 延迟增加) OpenCL 后端下延迟增长尤其严重,15 次调用后延迟膨胀 2.6 倍 本文详细分析三个根因及修复方案,并给出修复前后的真实性能对比数据。 根因一:Vision Encoder 错误共享 LLM 的 KVCache问题分析MNN 的 multimodal 架构中,LLM backbone 和 vision/audio processor 各自维护独立的 RuntimeManager。然而在 Omni::load() 中,processor 的 runtime manager 会调用 setRuntimeHint(),该方法设置了 KVCACHE_INFO hint 指向 LLM 的 KVMeta: 123456// llm.cpp - setRuntimeHintvoid Llm::setRuntimeHint(std::shared_ptr<RuntimeM...
魔法数字 33377335(0x01FD4C37)的真相
发表于2026-05-13|技术分析
真相:DEEPSEEK 的 T9 九宫格编码33377335 在九宫格手机键盘上对应 DEEPSEEK 这 8 个字母。 在传统 T9 手机键盘(九键输入法)上,字母与数字的映射为: 按键 字母 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ 逐字母解码: 字母 按键 在按键上的位置 D 3 第 1 个(DEF → D) E 3 第 2 个(DEF → E) E 3 第 2 个 P 7 第 1 个(PQRS → P) S 7 第 4 个(PQRS → S) E 3 第 2 个 E 3 第 2 个 K 5 第 2 个(JKL → K) 所以 D-E-E-P-S-E-E-K = 3-3-3-7-7-3-3-5 = 33377335 ✅ 这不是一个 IEEE 754 浮点数常量,不是 GPU 工作组大小,而是一个彩蛋数字 🥚 (不过说回来,这个数字的质因数分解 5 × 1931 × 3457 倒是货真价实的——就跟你把 DE...
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)
发表于2026-05-10|AI 系统
本周(5月3日~5月10日),15 个开源仓库中有 9 个产生了更新,共计 168 次提交。以下是各仓库的关键变化及技术分析。 tencent/ncnn:Vulkan 管线缓存、PNNX 功能增强与 x86 修复本周 ncnn 共有 13 次提交,涵盖 Vulkan 后端、PNNX 工具链及 x86 优化等多个方面。 Vulkan 管线持久化缓存最值得关注的变化是 Vulkan 后端新增了管线缓存持久化支持(PR #6702)。此前 ncnn 的 Vulkan 后端每次运行时都需要重新编译 SPIR-V 着色器,这在移动端 GPU(如 Adreno、Mali)上可能导致数秒的启动延迟。新的实现按着色器哈希缓存编译后的管线对象,并附带严格的设备/驱动/着色器校验,确保缓存不会在不同 GPU 间误用。这对生产环境中需要快速冷启动的场景意义重大。 同时,PR #6705 修复了 Vulkan 扩展依赖链的处理——某些扩展存在传递依赖(如 VK_KHR_16bit_storage 依赖 VK_KHR_storage_buffer_storage_class)...
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)
发表于2026-05-03|AI 系统
本周(2026-04-26 ~ 2026-05-03)共跟踪 15 个仓库,其中 9 个仓库有更新,合计 165 次提交。以下是对各仓库关键变化的详细解读。 本周无更新的仓库: tencent/ncnn、airockchip/rknn-toolkit2、airockchip/rknn-llm、futz12/ncnn_llm、mlc-ai/mlc-llm、ml-explore/mlx-lm ggml-org/llama.cpp(30 commits)本周 llama.cpp 依然保持了最高的活动量,涵盖后端优化、新硬件支持和用户界面重构。 CUDA / GPU 后端 多 GPU PCI Bus ID 去重修复(#22533):修复了当多个 GPU 共享 PCI Bus ID 时,CUDA 设备检测 OOM 导致仅发现 1 张卡而忽略其他 3 张的严重 bug。同时同步更新了 HIP 和 MUSA 宏的支持。 Flash Attention Pascal 架构修复(#22541):Tile-base...
端侧 AI 推理框架周报(2026-04-22 ~ 2026-04-29)
发表于2026-04-29|AI 系统
本周跟踪了 15 个主流端侧 AI 推理框架的开源仓库,其中 9 个有显著更新,共产生 170 次提交。以下是各仓库的重点变化分析。 1. alibaba/MNN — 4 commitsVulkan 后端 no-subgroup 降级分支MNN 本周在 Vulkan 后端的 VulkanLinearAttention 和 Conv1x1-Decode 的 gemv 操作中引入了 no-subgroup 降级分支。这是一个非常实用的兼容性改进: 背景:Vulkan subgroup(子组)操作是现代 GPU 做 warp-level 协作的高效方式,但并非所有 Vulkan 实现都支持(特别是 Mesa 驱动的某些 Intel GPU、部分移动端 Mali GPU)。 实现思路:为主路径保留 subgroup 优化的高性能路径,同时为不支持的设备提供了纯线程级替代实现。使得 LLM decode 阶段的注意力计算在更广泛的 Vulkan 设备上可用。 这种”高性能路径 + 通用降级”的架构思路值得借鉴,尤其对于需要跨平台部署的推理框架而言。 CPU ARMv8.2&#...
DeepSeek-V4 架构全解:百万token时代的效率革命
发表于2026-04-26|AIDeep Learning
2026年4月24日,DeepSeek正式开源了第四代旗舰模型 DeepSeek-V4,距离上一代DeepSeek-V3发布整整过去了484天。V4带来的核心命题不是去争夺SOTA王座,而是将百万token上下文从一个炫技参数变成可日常使用的工程能力。 一、模型规格速览V4系列分为两个版本: 规格 V4-Flash V4-Pro 总参数 284B 1.6T 激活参数 13B 49B 层数 43 61 Hidden Dim 4096 7168 Routed Experts 256 384 Shared Expert 1 1 每token激活专家 6 6 预训练Tokens 32T 33T 模型权重 160GB (FP4+FP8混合) 861GB (FP4+FP8混合) V4-Pro 成为当下公开权重最大的开源模型,全面支持 1M token 原生上下文。 在1M上下文场景下,效率对比达到惊人水平: V4-Pro:单token FLOPs 仅为 V3.2 的 **27%**,KV cache 仅为 10% V4-Flash:单toke...
ld 加载器如何规避 glibc 版本冲突:交叉编译的底层机制解析
发表于2026-03-26|系统编程
问题背景在 Linux 交叉编译场景中,开发者经常遇到这样的困境: 12$ ./myapp./myapp: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found 这是因为编译环境的 glibc 版本(如 2.34)高于运行环境的 glibc 版本(如 2.31)。但奇怪的是,作为负责加载所有动态库的 ld 加载器(/lib64/ld-linux-x86-64.so.2),它自己却从不受 glibc 版本问题的困扰。本文将深入解析这一现象背后的技术原理。 一、符号版本化的双刃剑1.1 glibc 的符号版本机制glibc 使用符号版本化(Symbol Versioning)来保持向后兼容。以 memcpy 为例: 123// glibc 内部定义__asm__(".symver memcpy, memcpy@GLIBC_2.2.5");__asm__(".symver memcpy, memcpy@@GLIBC_2.14"); // 默认版本 当程序...
Torch Chunked Gated Delta Rule 并行优化指南
发表于2026-03-19|AI 系统
引言在实现 Chunked Gated Delta Rule 时,原始代码中存在两个明显的性能瓶颈,阻碍了 GPU 并行计算的高效执行。本文将详细分析这两个问题,并提供针对性的优化方案。 原始代码分析以下是原始实现中的关键代码片段: 12345678910111213141516171819202122232425262728293031323334def torch_chunk_gated_delta_rule( query, key, value, g, beta, chunk_size=64, initial_state=None, output_final_state=False, use_qk_l2norm_in_kernel=False,): # ... 省略初始化和 reshape 代码 ... mask = torch.triu(torch.ones(chunk_size, chunk_size, dtype=torch.bool, device=query.device), diagonal=0) # chun...
SonicMoE - 加速 MoE 模型的 IO 与 Tile 感知优化
发表于2026-03-18|论文解读AI 系统
SonicMoE: 加速 MoE 模型的 IO 与 Tile 感知优化 论文地址: https://arxiv.org/abs/2512.14080代码开源: https://github.com/Dao-AILab/sonic-moe作者: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao 背景:MoE 模型的趋势与挑战近年来,混合专家模型 (Mixture of Experts, MoE) 已成为扩展大语言模型的主流架构。与 Dense 模型相比,MoE 可以在不显著增加计算成本的前提下大幅提升参数量。 MoE 的两个核心趋势从最新的开源模型(如 DeepSeek-V3、Qwen3 MoE、Kimi K2)可以看出两个明显的趋势: 细粒度 (Fine-grained): 专家的中间维度越来越小 Mixtral 8x22B: d/n = 0.38 DeepSeek-V3: d/n = 3.50 Qwen3-Next: d/n = 4.00 ...
ARM 架构深度学习推理指令集的演进与技术范式分析报告
发表于2026-03-13
ARM 架构深度学习推理指令集的演进与技术范式分析报告在现代计算架构的演进过程中,ARM 架构已从最初的嵌入式低功耗设计,逐步成长为覆盖移动端、数据中心、超级计算机以及边缘计算的全能型架构。这一转型的核心驱动力之一,便是为了应对深度学习(Deep Learning)和人工智能(AI)推理任务对计算效率、算力密度以及能效比的极致追求。从最初的通用向量扩展 NEON,到专为量化计算设计的 DotProd 和 I8MM,再到代表未来高性能计算范式的可伸缩矢量扩展(SVE)与可伸缩矩阵扩展(SME),ARM 指令集架构(ISA)的演变深刻地反映了计算范式从标量向向量,再由向量向矩阵的重大跃迁 。 第一章 ARM 深度学习指令集的历史演进脉络ARM 架构的深度学习推理能力并非一蹴而就,而是伴随着 ARMv7 到 ARMv9 的架构更迭,经历了数个关键的技术周期。 1.1 初期探索:NEON 与通用 SIMD 时代在深度学习爆发之前,多媒体处理、图形渲染和音频编解码是并行计算的主要需求。2011年,ARM 在 ARMv7-A 架构中正式引入了 Advanced SIMD 技术,即 NEON ...
12…5
avatar
何榜文
文章
46
标签
81
分类
8
Follow Me
公告
One week is 2% of a year
最新文章
MNN Vision Encoder 内存泄漏修复与性能分析2026-05-13
魔法数字 33377335(0x01FD4C37)的真相2026-05-13
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)2026-05-10
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)2026-05-03
端侧 AI 推理框架周报(2026-04-22 ~ 2026-04-29)2026-04-29
分类
  • AI1
    • Deep Learning1
  • AI 系统5
  • Effective STL6
  • 技术分析1
  • 系统编程1
  • 论文解读1
    • AI 系统1
标签
HuggingFace RMSNorm 内存泄漏 AnyNet Effective STL Attention LLaMa2 并行计算 DeepSeek TVM 深度学习 Linear Attention 魔法数字 String opencl 彩蛋 Containers Linux 周报 deepseek Vector TTS ONNX MQA GPU 大模型 c++ 多模态大模型 Python T9输入法 self-attention PyTorch ViT software engineer llama.cpp transformer glibc openclaw Qwen arm
归档
  • 五月 2026 4
  • 四月 2026 2
  • 三月 2026 8
  • 七月 2025 1
  • 六月 2025 5
  • 四月 2025 1
  • 三月 2025 2
  • 二月 2025 4
网站信息
文章数目 :
46
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By 何榜文框架 Hexo 7.3.0|主题 Butterfly 5.5.4