LogoYet Another 何榜文's Blog

Yet Another 何榜文's Blog

端侧 AI 推理框架周报(2026-06-21 ~ 2026-06-28)
发表于2026-06-28|AI 系统
概览本周(2026-06-21 ~ 2026-06-28)15 个仓库中有 10 个产生更新,共计 162 次提交。以下按仓库逐一解读。 一、阿里巴巴 MNN(7 commits)MNN-aware QLoRA 微调支持MNN 本周最大的亮点是新增了 MNN-aware QLoRA finetuning 功能(#4560)。这一特性将 QLoRA 的微调流程与 MNN 的量化推理管线深度结合:微调时直接用 MNN 的低比特量化算子(如 INT4/INT8 matmul)参与前向传播,使量化误差和训练过程在同一个计算图内对齐,而非传统 QLoRA 中先「冻结量化权重 + 推理框架外微调」的两阶段解耦方式。这意味着在 MNN 上部署 QLoRA 微调后的模型时,精度损失理论上更可控,是端侧参数高效微调(PEFT)值得关注的方向。 Vulkan Range op 图像实现Vulkan 后端新增了 Range 操作的 image 实现(#4563)。Range 在动态 shape 场景中用于构造连续索引序列(例如 [0, 1, ..., n-1]),此前仅在 buffer 模式...
端侧 AI 推理框架周报(2026-06-14 ~ 2026-06-21)
发表于2026-06-21|AI 系统
概述本周(2026-06-14 ~ 2026-06-21)监控的 15 个开源仓库中有 10 个产生更新,合计 180 次提交。几个值得关注的趋势: llama.cpp / ONNX Runtime / ExecuTorch / TVM 活跃度极高(各 30+ 提交),围绕多模态、混合模型、长上下文和量化推理展开密集迭代 MNN 3.6.0 正式发布,带来 OpenCL 启发式调优、RVV 适配等基础设施改进 Qualcomm AI Hub 全面转向 PT2 导出,新增 GenieX/GenieX_llama.cpp 运行时 RKNN-LLM v1.3.0 发布 tencent/ncnn — Vulkan INT8 内核与批量推理基础设施4 次提交 Vulkan INT8 内核本周 ncnn 的核心变化是为 Vulkan 后端添加了 INT8 量化推理路径(#6751)。具体来说,nihui 实现了以下层的 Vulkan INT8 kernel: Convolution — 卷积层 INT8 shader Convol...
论文速读:在移动 NPU 上跑通端到端 RAG——高通 Hexagon 的 Benchmark 答卷
发表于2026-06-16|论文解读
论文信息 标题:Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite 作者:Zhiyuan Cheng, Longying Lai 链接:https://arxiv.org/abs/2606.11257 提交:2026-06-09 | 9 pages | cs.CL / cs.LG / cs.PF TL;DR这篇论文做了件事:把 Embedding + Reranker + LLM 三条推理管线全部搬上高通 Hexagon NPU(Snapdragon X Elite),在 Dell XPS 13 上跑通了可能是首个端到端的 NPU RAG 系统。结论是 NPU 比 CPU 快 4-18 倍、省 4-12 倍电,且答案质量不降。 系统设计整个 RAG Pipeline 分两条链路: 索引链路:文档切片 → EmbeddingGemma 300M 生成 1024 维向量 → FAISS 构建索引 查询链路:混合检索(BM...
端侧 AI 推理框架周报(2026-06-07 ~ 2026-06-14)
发表于2026-06-14|AI 系统
本周(2026-06-07 ~ 2026-06-14)共追踪 15 个开源推理框架/工具链仓库,其中 11 个有更新,总计 182 次提交。以下是各仓库的关键变化与技术分析。 alibaba/MNN — 8 commitsWan2.1 视频生成模型支持 MNN 本周合并了对 Wan2.1-T2V-1.3B 视频生成模型的导出和推理支持(#4469)。这是继之前支持的 Wan2.1 文生图模型之后的进一步扩展,将 MNN 的 Diffusion 推理能力从图像扩展到视频生成领域。SD1.5 的 resize cache warmup bug 也在同一波修复中(#4530)。 LLM 核心修复 Qwen2.5-Omni 音频预处理(#4459):修复了多模态音频输入在预处理中的边界情况,这对于 Omni 模型在实际场景中的部署至关重要。 gapLen 计算 bug(#4527):修复了 _maskQK 中 mask 为空时提前返回导致的 gapLen 未初始化问题,这个 patch 来自阿里内部代码审查(Merge-Request 27957084)。 后...
端侧 AI 推理框架周报(2026-05-17 ~ 2026-05-23)
发表于2026-05-24|AI 系统
本周(2026-05-17 ~ 2026-05-23)9 个仓库共产生 196 次提交,涵盖端侧推理、量化、后端优化、新模型支持等多个方向。 tencent/ncnn — 18 commits本周 ncnn 在 ARM/NEON 优化、RISC-V 后端和工具链方面持续发力。 ARM SDPA(Scaled Dot-Product Attention)Layer新增 ARM 后端 SDPA 层实现(#6698),这是 ncnn 在 LLM 推理方向的重要进展。SDPA 将 QKV 投影后的 attention 计算融合为单一算子,避免了多次 kernel launch 和中间 tensor 的读写开销,对端侧 LLM 的 decode 阶段延迟改善明显。 ARM SIMD 激活函数与量化風的彷徨 贡献了 erf、elu、gelu、selu 在 ARM 上的 SIMD 实现(#6605),补齐了 ARM NEON 后端在激活函数方面的性能短板。Justin Fung 提交了两项 RISC-V Vector 1.0 的量化/反量化实现(#6695,...
端侧 AI 推理框架周报(2026-05-10 ~ 2026-05-17)
发表于2026-05-17|AI 系统
本周(2026/05/10 ~ 2026/05/17)15 个跟踪仓库中有 10 个产生更新,总计 157 次提交。重点关注 llama.cpp 的 MTP 推测解码支持、ONNX Runtime 的 FlashAttention 20x 加速、ncnn 的 ARM BF16 全线优化以及 ExecuTorch 的 RISC-V 基础设施落地。 tencent/ncnn — 12 commits本周 ncnn 的核心主题是 BF16 存储与计算的深度优化,围绕 ARMv8.4 BF16 指令集展开了一系列 GEMM/卷积/全连接层的优化。 ARMv8.4 BF16 GEMM 优化(#6714)PR #6714 针对 ARMv8.4 架构下的 BF16 GEMM 进行了深度实现。ARMv8.4 引入了 BFMMLA 指令(即 BFloat16 Matrix Multiply-Accumulate),每条指令可完成 2×4×8 的 BF16 矩阵乘加操作。ncnn 此次将 GEMM 核心路径切换至 BFMMLA,...
MNN Vision Encoder 内存泄漏修复与性能分析
发表于2026-05-13|AI 系统
问题背景在 MNN LLM 的 multimodal 推理场景中,当多次调用视觉编码器(vision encoder)时,观察到两个严重问题: 推理延迟随调用次数持续增长(内存泄漏 + 延迟增加) OpenCL 后端下延迟增长尤其严重,15 次调用后延迟膨胀 2.6 倍 本文详细分析三个根因及修复方案,并给出修复前后的真实性能对比数据。 根因一:Vision Encoder 错误共享 LLM 的 KVCache问题分析MNN 的 multimodal 架构中,LLM backbone 和 vision/audio processor 各自维护独立的 RuntimeManager。然而在 Omni::load() 中,processor 的 runtime manager 会调用 setRuntimeHint(),该方法设置了 KVCACHE_INFO hint 指向 LLM 的 KVMeta: 123456// llm.cpp - setRuntimeHintvoid Llm::setRuntimeHint(std::shared_ptr<RuntimeM...
魔法数字 33377335(0x01FD4C37)的真相
发表于2026-05-13|技术分析
真相:DEEPSEEK 的 T9 九宫格编码33377335 在九宫格手机键盘上对应 DEEPSEEK 这 8 个字母。 在传统 T9 手机键盘(九键输入法)上,字母与数字的映射为: 按键 字母 2 ABC 3 DEF 4 GHI 5 JKL 6 MNO 7 PQRS 8 TUV 9 WXYZ 逐字母解码: 字母 按键 在按键上的位置 D 3 第 1 个(DEF → D) E 3 第 2 个(DEF → E) E 3 第 2 个 P 7 第 1 个(PQRS → P) S 7 第 4 个(PQRS → S) E 3 第 2 个 E 3 第 2 个 K 5 第 2 个(JKL → K) 所以 D-E-E-P-S-E-E-K = 3-3-3-7-7-3-3-5 = 33377335 ✅ 这不是一个 IEEE 754 浮点数常量,不是 GPU 工作组大小,而是一个彩蛋数字 🥚 (不过说回来,这个数字的质因数分解 5 × 1931 × 3457 倒是货真价实的——就跟你把 DE...
端侧 AI 推理框架周报(2026-05-03 ~ 2026-05-10)
发表于2026-05-10|AI 系统
本周(5月3日~5月10日),15 个开源仓库中有 9 个产生了更新,共计 168 次提交。以下是各仓库的关键变化及技术分析。 tencent/ncnn:Vulkan 管线缓存、PNNX 功能增强与 x86 修复本周 ncnn 共有 13 次提交,涵盖 Vulkan 后端、PNNX 工具链及 x86 优化等多个方面。 Vulkan 管线持久化缓存最值得关注的变化是 Vulkan 后端新增了管线缓存持久化支持(PR #6702)。此前 ncnn 的 Vulkan 后端每次运行时都需要重新编译 SPIR-V 着色器,这在移动端 GPU(如 Adreno、Mali)上可能导致数秒的启动延迟。新的实现按着色器哈希缓存编译后的管线对象,并附带严格的设备/驱动/着色器校验,确保缓存不会在不同 GPU 间误用。这对生产环境中需要快速冷启动的场景意义重大。 同时,PR #6705 修复了 Vulkan 扩展依赖链的处理——某些扩展存在传递依赖(如 VK_KHR_16bit_storage 依赖 VK_KHR_storage_buffer_storage_class)...
端侧 AI 推理框架周报(2026-04-26 ~ 2026-05-03)
发表于2026-05-03|AI 系统
本周(2026-04-26 ~ 2026-05-03)共跟踪 15 个仓库,其中 9 个仓库有更新,合计 165 次提交。以下是对各仓库关键变化的详细解读。 本周无更新的仓库: tencent/ncnn、airockchip/rknn-toolkit2、airockchip/rknn-llm、futz12/ncnn_llm、mlc-ai/mlc-llm、ml-explore/mlx-lm ggml-org/llama.cpp(30 commits)本周 llama.cpp 依然保持了最高的活动量,涵盖后端优化、新硬件支持和用户界面重构。 CUDA / GPU 后端 多 GPU PCI Bus ID 去重修复(#22533):修复了当多个 GPU 共享 PCI Bus ID 时,CUDA 设备检测 OOM 导致仅发现 1 张卡而忽略其他 3 张的严重 bug。同时同步更新了 HIP 和 MUSA 宏的支持。 Flash Attention Pascal 架构修复(#22541):Tile-base...
12…6
avatar
何榜文
文章
52
标签
94
分类
8
Follow Me
公告
One week is 2% of a year
最新文章
端侧 AI 推理框架周报(2026-06-21 ~ 2026-06-28)2026-06-28
端侧 AI 推理框架周报(2026-06-14 ~ 2026-06-21)2026-06-21
论文速读:在移动 NPU 上跑通端到端 RAG——高通 Hexagon 的 Benchmark 答卷2026-06-16
端侧 AI 推理框架周报(2026-06-07 ~ 2026-06-14)2026-06-14
端侧 AI 推理框架周报(2026-05-17 ~ 2026-05-23)2026-05-24
分类
  • AI1
    • Deep Learning1
  • AI 系统10
  • Effective STL6
  • 技术分析1
  • 系统编程1
  • 论文解读2
    • AI 系统1
标签
llama.cpp Python MHA 综述 WebGPU TPU-MLIR Qwen2.5-VL RAG 交叉编译 bing-search-api cosplay NPU TTS GPU self-attention Algorithms 加载器 端侧推理 executorch Vulkan Iterator FlashAttention2 Effective STL transformer software engineer Vision Transformer onnxruntime Attention 高通 DeepSeek ncnn 周报 HuggingFace Delta Rule 动态链接 String TVM video summarization T9输入法 Linear Attention
归档
  • 六月 2026 4
  • 五月 2026 6
  • 四月 2026 2
  • 三月 2026 8
  • 七月 2025 1
  • 六月 2025 5
  • 四月 2025 1
  • 三月 2025 2
网站信息
文章数目 :
52
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By 何榜文框架 Hexo 7.3.0|主题 Butterfly 5.5.4