端侧 AI 推理框架周报(2026-06-14 ~ 2026-06-21)
概述
本周(2026-06-14 ~ 2026-06-21)监控的 15 个开源仓库中有 10 个产生更新,合计 180 次提交。几个值得关注的趋势:
- llama.cpp / ONNX Runtime / ExecuTorch / TVM 活跃度极高(各 30+ 提交),围绕多模态、混合模型、长上下文和量化推理展开密集迭代
- MNN 3.6.0 正式发布,带来 OpenCL 启发式调优、RVV 适配等基础设施改进
- Qualcomm AI Hub 全面转向 PT2 导出,新增 GenieX/GenieX_llama.cpp 运行时
- RKNN-LLM v1.3.0 发布
tencent/ncnn — Vulkan INT8 内核与批量推理基础设施
4 次提交
Vulkan INT8 内核
本周 ncnn 的核心变化是为 Vulkan 后端添加了 INT8 量化推理路径(#6751)。具体来说,nihui 实现了以下层的 Vulkan INT8 kernel:
- Convolution — 卷积层 INT8 shader
- ConvolutionDepthWise — 深度可分离卷积 INT8 shader
- InnerProduct — 全连接层 INT8 shader
- GEMM — 通用矩阵乘法 INT8 shader
这些 kernel 包含 scalar fallback 和 integer dot product shader 两条分支,使 GPU 推理能充分利用移动端 GPU(如 Adreno)的硬件 INT8 dot-product 指令。同时启用了 INT8 GPU benchmark。
意义:端侧 GPU 推理长期以 FP16 为主流,但 INT8 量化可在带宽受限场景(如手机 NPU+GPU 混合调度)中获得 2× 吞吐量提升。ncnv Vulkan INT8 的引入填补了移动端 GPU 量化推理的空缺。
批量推理基础设施
batch infrastructure(#6656)为 ncnn 增加了 batch-aware 的记录上传下载机制和 cast/packing batch 支持。这是 ncnn 向动态批量推理迈出的重要一步,使得单次推理请求可以打包多个输入,显著提高 GPU 利用率。
Vulkan Subgroup 扩展查询
query VK_KHR_shader_subgroup_extended_types features(#6780)——ncnn 现在会主动查询 Vulkan 设备的 subgroup extended types 特性支持情况,并据此 sanitize FP16 subgroup 路径。这避免了在不支持 FP16 subgroup 的硬件上产生非法指令。
alibaba/MNN — v3.6.0 发布,RVV 适配与 OpenCL 调优
14 次提交
MNN 3.6.0 Release
MNN 本周正式发布 v3.6.0(#4545)。围绕该版本的 CI 工作流也同步刷新:启用 LLM/OMNI 构建、新增 HarmonyOS 支持、Android 16K 页面大小适配(#4541)。
Fused LLM Ops 与 C4 Backend
Add fused LLM ops and C4 backend paths(#4554)——MNN 新增了融合的 LLM 算子,并引入 C4(基于字节的压缩编码)后端路径。这对 LLM 推理的 KV cache 压缩有重要意义,C4 格式可以减少显存占用并提高缓存效率。
CPU: RVV 架构适配
Adapt CommonOptFunction for RVV architecture(#4426)以及后续的 RVV pack/unpack 函数修复(#4531)——MNN 正在系统性地适配 RISC-V Vector (RVV) 指令集。CommonOptFunction 是 MNN 中所有后端优化函数的分发中心,使其支持 RVV 意味着 MNN 可以在 RISC-V 设备上利用向量化指令加速推理。这对于日益增长的 RISC-V AI 芯片生态非常关键。
OpenCL 启发式调优
OpenCL backend supports heuristic guidance for quantized GEMM/GEMV and FP local size settings(#4537)——MNN 的 OpenCL 后端现在使用启发式策略来指导量化 GEMM/GEMV 的 workgroup 配置。传统上 OpenCL 的 local size 设置依赖硬编码或 exhaustive search,启发式方法可以根据输入形状和 GPU 特性动态选择最优配置,显著提升移动 GPU 上量化模型的推理性能。
TopKV2 GPU 原生支持
Add native TopKV2 GPU support for OpenCL IMAGE and Vulkan (image/buffer)(#4535)——TopK 算子是 beam search 解码的关键路径,此前在 GPU 上只能 fallback 到 CPU。原生 GPU 实现避免了跨后端的数据拷贝延迟。
LLM 推理优化
Treat linear_attention layers as full attention(#4539)——MNN 针对混合模型中 linear attention 层的注意力计算模式做了优化,将其视为 full attention 处理以避免特殊化路径的性能开销- Embedding decoder 导出修复:使用 causal mask 确保自回归解码的正确性
KleidiAI 子项目路径修复
Fix the KleidiAI path mapping while using MNN as a subproject(#4542)——当 MNN 作为第三方子项目被集成时,KleidiAI 的头文件路径映射会出现问题,现已修复。
其他修复
- TFLite binary activation 转换修复(#4540)
- Unique op 的 ONNX 规范对齐——输出必须按排序排列(#4544)
- CPU 无 SDOT 指令时的 FP32 fallback 策略优化(#4534)
airockchip/rknn-llm — v1.3.0 发布
1 次提交
RKNN-LLM 发布了 v1.3.0 版本。虽然没有附带详细的 changelog,但考虑到 RKNN-LLM 是瑞芯微 NPU 上部署 LLM 的核心工具链,这次发布很可能包含了对新型号 NPU 的支持、量化方案优化和模型兼容性更新。
sophgo/LLM-TPU — Gemma4 与 Qwen3.5 支持
3 次提交
Gemma4 per_layer_token_embd 权重分离
该 PR(#157)为 Gemma4 模型实现了 per_layer_token_embd 权重的分离逻辑。Gemma4 采用了 MLA(Multi-head Latent Attention)+ 滑动窗口的混合注意力架构,其中某些层可能共享 token embedding 权重,而其他层使用独立的嵌入。per_layer 分离使得 TPU 编译器和运行时可以更精确地分配权重到不同的计算核心。
Qwen3.5 History Context 支持
support qwen3.5 history context——LLM-TPU 增加了对 Qwen3.5 对话历史上下文的管理能力。在 TPU 推理中,KV cache 的管理与 GPU 差异很大(TPU 的 SRAM 通常有限),高效的历史上下文管理对于长对话场景至关重要。
ggml-org/llama.cpp — AMX 优化、Eagle3、多模态修复密集迭代
30 次提交
AMX 矩阵乘法优化
optimize AMX (#24806) 是本周最具性能影响力的提交。通过对 n_batch × M 维度上的线程分区进行扁平化,使每个线程都能参与量化过程而非串行化。在 Intel Granite Rapids(Xeon Platinum 8488C)上,Qwen3.5 0.8B IQ4_NL 模型 pp512 测试从 730.71 t/s 提升到 779.86 t/s(~7% 加速)。AMX(Advanced Matrix Extensions)是 Intel 第四代/第五代至强上的矩阵加速指令,这一优化让 AMX 能更好地处理小 batch 场景。
Eagle3 投机解码支持
spec: support eagle3 for qwen3.5 & 3.6 (#24593)——llama.cpp 增加了对 Qwen3.5 和 Qwen3.6 的 Eagle3 投机解码支持。Eagle3 是 Qwen 团队提出的第三代投机解码架构,它利用 small draft model 生成候选 tokens,再由目标模型验证。这一优化在保持生成质量的同时,可使推理吞吐量提升 2-3×。
多模态修复:InternVL Batching + GLM-DSA
mtmd: add batching support for internvl (#24775)——InternVL 是一种多模态模型,batching 支持使其能够批量处理多模态输入,显著提高服务吞吐量mtmd: several bug fixes (#24784)——一系列多模态解码器(mtmd)的 bug 修复model: glm-dsa load DSA indexer tensors as optional (#24770)——GLM-5.2 引入了 DSA 索引器,但 llama.cpp 之前将其作为 mandatory tensor 加载导致加载失败,现改为 optional
Power10 MMA Matmul:K Tail 支持
support K tails in power10 Q8/Q4 MMA matmul (#24753)——IBM 贡献的 Power10 MMA(Matrix Math Assist)矩阵乘法路径现在支持 K 维度尾部不完整的情况,移除了 K 必须被 kc 整除的限制。这使得更多工作量可以使用 MMA kernel 加速,减少到 mnpack fallback 路径的降级。
CUDA: Col2Im 1D
cuda: add GGML_OP_COL2IM_1D (#24417)——在 CUDA 后端添加了 1D col2im(column-to-image)算子的支持,这是 audio 模型中常见的反卷积/重排操作。
Server 改进
server: consolidate slot selection into get_available_slot (#24755)——将 slot 选择逻辑统一为单一函数,简化 LLM serving 的 slot 管理层server: add "X-Accel-Buffering": "no" header——为流式端点添加了 Nginx 反代理兼容头,防止 Nginx 缓冲破坏流式响应server: refactor child --> router communication (#24821)——重构子进程到路由器的通信模型server: optimize get_token_probabilities (#24796)——使用std::partial_sort代替对完整词表排序,在 n_top=0 时从 8555.6 μs 降至 704.3 μs(12× 加速)server: add --agent arg (#24801)——添加 agent 模式,替代此前的 webui 命名
GGML 0.15.2 版本
ggml: bump version to 0.15.2——底层 GGML 库版本更新。
qualcomm/ai-hub-models — PT2 默认导出、GenieX 运行时、新模型加入
30 次提交
PT2(torch.export)设为默认导出路径
Update default to pt2 (#3492)——Qualcomm AI Hub 正式将 PT2(torch.export dynamo)设为默认的模型导出路径。此前静态的 AIMET-ONNX + QNN 流程将被 torch.export 的动态导出取代。同时,Qwen3-4B 也完成了从静态部署到 dynamic-shape (dynamo) 部署的迁移(#3491),使用 torch 2.10 的 torch.onnx.export(dynamo=True) 导出为 4 个 split part 的 w4a16 GENIE 格式。
GenieX 运行时
Add GenieX llama.cpp runtime schema and config (#3595)——新增 GenieX 的 llama.cpp 运行时。GenieX 是高通的专有推理运行时,与 llama.cpp 的集成意味着使用 GGUF 格式的模型可以直接在 GenieX 上运行,首批支持的模型包括 Gemma 4 系列和 LLama 3.2 等。
VoiceAI 运行时扩展
Add voiceai runtime and vocab for Whisper models (#3583)——将 VoiceAI 运行时和 vocab 支持扩展到更多的 Whisper 模型。此前仅 whisper_small_quantized 支持 VoiceAI,现在扩展到整个 Whisper 模型家族。
CLI 设备发现
Add devices/chipsets commands and device-based fetch (#3620)——CLI 新增了 devices 和 chipsets 子命令,用户可以直接查询可用设备和芯片,并基于设备型号拉取预编译模型资产。
新模型:GR00T-N1.5 (grootn15)
Add GR00T-N1.5 model (#3163)——高通与 NVIDIA 合作的 GR00T 机器人基础模型。这是一个包含 4 个组件的 GrootCollection 模型,支持 end-to-end 机器人操作推理 pipeline,使用 LeRobot 数据集进行评估。
其他值得关注的变化
- FastSAM 评估和量化支持(#3431)
- EyeGaze NPU 支持修复(#3567)——将 CPU 的 fallback 去掉,恢复 NPU 推理
- Layer API 清理:移除
get_channel_last和get_output_names等旧 API - 私有资产通过 S3 分发(#3572)
- SDK 版本信息披露(#3613)
microsoft/onnxruntime — OpSet 27、FlashDecode 优化、AVX512 2bit 权重
30 次提交
ONNX 1.22.0 (OpSet 27) 集成
Integrate ONNX 1.22.0 (opset 27) (#28754)——ONNX Runtime 本周集成了 ONNX 1.22.0 RC1,最大 opset 版本从 26 提升到 27。这是重要的基础设施升级,后续将随 ONNX v1.22.0 正式版发布同步跟进。
CUDA: FlashDecode + LinearAttention 解码优化
Optimize FlashDecode split planning for local-window GQA (#29161)——对于滑动窗口注意力(local_window > 0),FlashDecode 的 split-K planning 之前使用完整的 total_sequence_length 来规划,而现在只考虑最后 local_window_size 个 KV 位置。这避免了不必要的 over-split,减少了 split-K combine 的开销Add decode-optimized LinearAttention (GatedDeltaNet) kernels (#28985)——为 Qwen3-Next / Qwen3.6 等混合模型中的 gated-delta / linear-attention 循环添加了 decode 专用 CUDA kernel。在 seq_len=1 的 decode 阶段,原有 recurrent kernel 的 GPU 利用率很低,新的 decode kernel 使用 coalesced 内存访问方式读取 recurrent state,推理速度提升显著(PR 称在 GPT-OSS-20B 上 decode 性能大幅提高)
CUDA: 移除 TensorRT Fused Causal Attention
Remove TensorRT fused causal attention kernels (#29143)——移除了 TensorRT 融合因果注意力 kernel,这些 kernel 自 #14732 之后就被默认禁用,仅通过 opt-in 环境变量可达。移除后减少了二进制包体积约 10MB+,简化维护。
CUDA: GQA Attention Sink 支持
Enable XQA decode for GroupQueryAttention with attention sink (#29162)——为 GPT-OSS 风格的 decode 模型启用了 attention sink(head_sink)的 XQA decode kernel 支持。sink token 被视为 smooth-softmax 项,通过 PrePack 步骤将常量 head_sink initializer 转换为缓存 FP32 缓冲区,避免每步重复转换。
CPU: AVX512 2-bit 权重 Kernel
Add AVX512 (+VNNI) 2-bit weight CPU kernels (#29064)——这是本周 ORT 最值得关注的底层优化。此前 2-bit 权重的 MLAS kernel 仅支持 LUT-based kernel,存在形状限制(N 必须是 128 的倍数)且无法利用 VNNI 指令。新的 AVX512+VNNI kernel 大幅提升了 2-bit 量化的 prefill 性能(compute-bound 场景下效果显著)。
KleidiAI 修复与回归
KleidiAI fix igemm regression (#28571)——修复了 KleidiAI SME IGEMM 卷积路径的性能回归(影响 OCR 模型的大 kernel 卷积),采用分块 packed LHS 缓冲以降低内存消耗并改善缓存局部性Fix NHWC conv support gating (#29127)——修复了 KleidiAI NHWC 卷积支持开关过于宽泛导致 depthwise/grouped 卷积被错误路由的性能问题
WebGPU: WGSL 生成器 Python 实现
Add python implementation for wgsl-gen (#28355)——将 WebGPU EP 的 WGSL 模板编译器的 Node.js 依赖替换为 Python 原生实现。这简化了 WebGPU EP 的构建依赖,不再需要 npm 包 @fs-eire/wgsl-template。
XQA + MoE 修复
Harden QMoE against integer overflow and partial K tiles (#29067)——修复了 MoE decode GEMV 中当 intermediate_size 不是 64 倍数时产生 NaN 的问题Fix QMoE CPU livelock by eliminating nested intra-op parallelism (#29081)——修复了 MoE CPU 推理多线程死锁:专家循环内部嵌套了线程池分发,导致线程池活锁Default QMoE GEMV fp16 accumulation for fp16 activations (#29166)——当激活为 FP16 时,QMoE GEMV 默认使用 FP16 累加,相比 FP32 累加在 GPT-OSS-20B decode 上大幅性能提升
内存分析增强
Add memory stats to profiling (#29058)——新增了 bytes_requested_in_use 指标,追踪用户代码实际请求的内存量(排除内部碎片和对齐填充),使得内存分析更加精确。
microsoft/onnxruntime-genai — 安全加固与 Gemma4 兼容性
8 次提交
v0.15.0 发布 & CUDA win-arm64 构建
Update main to version 0.15.0 (#2183)——GenAI 扩展发布 v0.15.0 版本。同时添加了 Windows ARM64 上的 CUDA 构建支持(#2199),在 Arm 版的 Windows 设备(如 Surface Pro 11)上也可以利用 CUDA 加速生成式 AI。
BFloat16 Logits 修复
Fix BFloat16 logits returned as garbage (#2203)——一个关键的 bug fix:Logits::Get() 此前只将 FP16 输出转换为 float32,但跳过 BFloat16 的转换,导致 BFloat16 模型输出全部为乱码。修复后,BFloat16 和 FP16 模型都能正确解码。
Gemma4 Dual/MQA Attention 修复
Fix DefaultKeyValueCache: per-layer num_kv_heads for Gemma 4 dual/MQA attention (#2214)——Gemma 4 支持 dual head 和 multi-query attention(不同层有不同的 num_kv_heads),但 DefaultKeyValueCache 之前假定所有层 KV head 数一致,导致加载失败。修复后支持 per-layer KV cache shape 自动检测。
安全修复
top_k参数验证——防止 top_k 超过模型词表大小导致越界访问(#2224)EncodeBatch空输入验证——防止除零错误(#2226)
pytorch/executorch — Arduino 支持、Gemma4 128K 上下文、WebGPU 框架化
30 次提交
Arduino 库支持
Add Arduino library support for ExecuTorch (#20221)——这是一个具有里程碑意义的变化:ExecuTorch 现在可以作为 Arduino 库分发,支持在 Arduino 微控制器上运行 PyTorch 模型。关键组件包括:
build_arduino_library.sh:从仓库源码组装可分发库- CMSIS-NN 内核支持
- portable ops 集成
这意味着 PyTorch 的推理能力首次进入真正的 MCU 级设备(如 Arduino Uno、Nano 系列)。
Gemma4-31B 128K 长上下文
Enable 128k context for Gemma4-31B CUDA (#20316)——通过 TurboQuant TQ4(4-bit)格式实现 Gemma4-31B 的 128K 长上下文端到端推理。修复了融合 TQ4 attention kernel 使其可被 CUDA graph 捕获,decode/prefill 现在随实际上下文长度扩展。50 个滑动窗口层保持 2048-entry ring cache 不变。
WebGPU 后端框架化
本周 ExecuTorch WebGPU 后端有显著的基础设施改进:
- Mul op with full broadcast (
aten.mul.Tensor)——Mul 是 Llama 推理的关键路径(SiLU 分解为 sigmoid + mul,SwiGLU 跨激活相乘),已支持完整 PyTorch broadcast - Op-test codegen framework——受 Vulkan 启发的声明式 op 测试框架,用 Python 生成
.pte+ golden 数据,C++ gtest 驱动,大幅降低添加新 op 的门槛 - README 刷新——记录了 fused SDPA with KV cache、GPU 时间戳 profiling、4-bit weight-only quantized linear 等新里程碑进展
MLX Backend 内存优化
Reduce physical footprint memory (#20342, #20341)——MLX 后端针对 Gemma4-31B 做了两项内存优化:
- Slot 池回收:handler 创建的临时 slot 在执行后返回池中复用,4K 上下文的导出物理占用从 13.16 GiB 降至 2.62 GiB(降幅 80%)
- Ring buffer 尺寸优化:chunked prefill 时 ring buffer 不需要 2× window size,只需要
window_size + max_write_length - 1,再节省约 0.68 GiB
Qwen3.5-MoE OpenAI 服务入口
Add OpenAI serving entrypoint (#20313)——为 Qwen3.5-MoE 模型添加了兼容 OpenAI API 的服务入口。Python 进程作为 HTTP 控制平面(聊天模板、请求验证、session 亲和性、工具解析),C++ worker 进程通过通用 LLM server JSONL 协议执行模型推理。
CapabilityBasedPartitioner
Use CapabilityBasedPartitioner in AotiPartitioner (#20384)——AotiPartitioner(CUDA/Metal 后端的基类)切换到共享的 CapabilityBasedPartitioner 框架,与其他后端(XNNPACK、Vulkan、CoreML)保持一致。这使得 CUDA/Metal 后端可以使用一致的算子支持检查和分区策略。
QNN Backend 增强
addmm coreATen op support (#20355)——为 QNN 后端添加了aten.addmm支持,通过 AddmmToLinearTransform 将常见 Linear 模式转回 QNN 的 fused FullyConnected opnative_layer_norm and affine-free LayerNorm (#18990)——支持无 weight/bias 的 LayerNorm- Linux 主机 QNN 后端构建支持(#19889)
FP32 累加修复
portable: accumulate in fp32 for Half/BFloat16——softmax、log_softmax、mean、sum 等规约操作现在在 BFloat16/Half 下使用 FP32 累加,避免 BFloat16 累加在 256 处饱和导致的精度灾难。
Arm Backend
- CMSIS Pack 构建基础设施(#19942)——为 Arm 嵌入式生态提供了 CMake 包分发
- TOSA dialect op 真实实现(#19936)——从桩函数升级为真实实现,覆盖所有 TOSA dialect op
- Bundled program 直接序列化(#20217)——跳过 JSON 中间步骤,直接 Python flatbuffer 序列化,效率大幅提升
Cortex-M & NXP
- Cortex-M 后端最小化 CMSIS-NN 依赖(#20371)
- NXP 后端
mean.dim格式问题修复(#20218)
apache/tvm — Z3 SMT 求解器、TensorRT BYOC、ONNX NaN 语义对齐
30 次提交
Z3 SMT 求解器集成
Add optional Z3-backed proving to Analyzer (#19667)——本周 TVM 最引人注目的变化是在 tvm::arith::Analyzer 中集成了 Z3 SMT(Satisfiability Modulo Theories)求解器作为整数算术证明的后端。当 Z3 可用时,Analyzer::CanProve 先运行 TVM 自身的算术分析路径,如果无法证明则 fallback 到 Z3。这使得 TVM 编译器可以验证更复杂的循环边界和索引范围,有望提升自动调优和安全分析能力。
TensorRT BYOC 推进
Add partition_for_tensorrt and a pattern table (#19820)——提供了partition_for_tensorrt函数,这是 BYOC(Bring Your Own Codegen)的入口点,将子图卸载到 TensorRTUpdate BYOC operator converters from Relay to Relax (#19810)——将 TensorRT 算子转换器从 Relay 风格移植到 Relax 风格,修复了属性名称和形状不匹配导致的大多数 op 崩溃问题Rework Bring Your Own Codegen tutorial and add TensorRT example (#19839)——重写了 BYOC 教程,增加了 TensorRT 真实示例
ONNX 前端修复与 NaN 语义对齐
- NonMaxSuppression:接受 1-D 单元素标量输入(NumPy 2.x 兼容性修复)
- Drop NaN-preservation isnan-where wrappers——移除了之前在 Relu、Sign、Clip、ReduceMax/Min 中添加的 NaN 保留保护(
isnan+where),因为 ONNX Runtime 的最新行为不再要求这些层的 NaN 保留 - BatchNormalization inference mode fixed——将 ONNX 的
training_mode(int 0/1)正确转换为 bool - GridSample 5D volumetric input——支持 5D 体积数据(N,C,D,H,W)的 grid_sample
Arith 基础设施
Add Analyzer::Clone for deep-copying analyzer state (#19836)——允许 pass 快照分析器状态并在不改变原始状态的情况下继续探索Restrict floormod coefficient reduction (#19832)——修复了 floormod/floordiv 系数规约导致 DetectIterMap 不稳定的回归Let IRMutatorWithAnalyzer take a const Analyzer& (#19829)——API 现代化
TFLite 前端增强
Add missing TFLite operator mappings (#19813)——添加了 SIGN、BITWISE_XOR、RIGHT_SHIFT、RELU_0_TO_1、BUCKETIZE 等操作的直接映射Add RFFT2D op and supporting TIR kernels (#19812)——添加了 2D 实值 FFT 操作和对应的 TIR 底层 kernel 实现
CI 与构建现代化
- Bump tvm-ffi:RuntimeTypeIndex 优化、隐藏静态链接库符号
- CI 镜像:迁移到 sphinx-book-theme 文档主题
- 硬编码 fallback 版本字符串更新到 v0.26.dev0
- 测试基础设施清理:移除废弃的
tvm.testing辅助函数和 parametrize_targets
总结
| 仓库 | 提交数 | 本周亮点 |
|---|---|---|
| ncnn | 4 | Vulkan INT8 kernel, batch 推理基础设施 |
| MNN | 14 | v3.6.0 发布, RVV 适配, OpenCL 启发式调优 |
| RKNN-LLM | 1 | v1.3.0 发布 |
| LLM-TPU | 3 | Gemma4 权重分离, Qwen3.5 context |
| llama.cpp | 30 | AMX 优化, Eagle3, Power10 MMA, Server 重构 |
| AI Hub | 30 | PT2 默认导出, GenieX 运行时, GR00T 新模型 |
| ONNX Runtime | 30 | OpSet 27, FlashDecode/LinearAttention, AVX512 2bit |
| ONNX GenAI | 8 | v0.15.0, BFloat16 修复, Gemma4 KV cache |
| ExecuTorch | 30 | Arduino MCU 支持, 128K context, WebGPU 框架化, MLX 内存优化 |
| TVM | 30 | Z3 SMT, TensorRT BYOC, ONNX NaN 语义对齐 |
本周跨项目的一个共同趋势是对混合架构模型(Qwen3-Next / Gemma4)的全面适配——这些模型引入了 MLA、linear attention、滑动窗口等新注意力范式,推理框架正在快速跟进。
另一个显著趋势是多后端、多硬件统一——ncnn 加 Vulkan INT8,MNN 适配 RVV,ONNX Runtime 做 KleidiAI/AVX512/WebGPU,Executorch 做 Arduino/CMSIS-Pack——每个框架都在拓展自己的硬件边界。