概述

本周(2026-06-14 ~ 2026-06-21)监控的 15 个开源仓库中有 10 个产生更新,合计 180 次提交。几个值得关注的趋势:

  • llama.cpp / ONNX Runtime / ExecuTorch / TVM 活跃度极高(各 30+ 提交),围绕多模态、混合模型、长上下文和量化推理展开密集迭代
  • MNN 3.6.0 正式发布,带来 OpenCL 启发式调优、RVV 适配等基础设施改进
  • Qualcomm AI Hub 全面转向 PT2 导出,新增 GenieX/GenieX_llama.cpp 运行时
  • RKNN-LLM v1.3.0 发布

tencent/ncnn — Vulkan INT8 内核与批量推理基础设施

4 次提交

Vulkan INT8 内核

本周 ncnn 的核心变化是为 Vulkan 后端添加了 INT8 量化推理路径(#6751)。具体来说,nihui 实现了以下层的 Vulkan INT8 kernel:

  • Convolution — 卷积层 INT8 shader
  • ConvolutionDepthWise — 深度可分离卷积 INT8 shader
  • InnerProduct — 全连接层 INT8 shader
  • GEMM — 通用矩阵乘法 INT8 shader

这些 kernel 包含 scalar fallback 和 integer dot product shader 两条分支,使 GPU 推理能充分利用移动端 GPU(如 Adreno)的硬件 INT8 dot-product 指令。同时启用了 INT8 GPU benchmark。

意义:端侧 GPU 推理长期以 FP16 为主流,但 INT8 量化可在带宽受限场景(如手机 NPU+GPU 混合调度)中获得 2× 吞吐量提升。ncnv Vulkan INT8 的引入填补了移动端 GPU 量化推理的空缺。

批量推理基础设施

batch infrastructure(#6656)为 ncnn 增加了 batch-aware 的记录上传下载机制和 cast/packing batch 支持。这是 ncnn 向动态批量推理迈出的重要一步,使得单次推理请求可以打包多个输入,显著提高 GPU 利用率。

Vulkan Subgroup 扩展查询

query VK_KHR_shader_subgroup_extended_types features(#6780)——ncnn 现在会主动查询 Vulkan 设备的 subgroup extended types 特性支持情况,并据此 sanitize FP16 subgroup 路径。这避免了在不支持 FP16 subgroup 的硬件上产生非法指令。


alibaba/MNN — v3.6.0 发布,RVV 适配与 OpenCL 调优

14 次提交

MNN 3.6.0 Release

MNN 本周正式发布 v3.6.0(#4545)。围绕该版本的 CI 工作流也同步刷新:启用 LLM/OMNI 构建、新增 HarmonyOS 支持、Android 16K 页面大小适配(#4541)。

Fused LLM Ops 与 C4 Backend

Add fused LLM ops and C4 backend paths(#4554)——MNN 新增了融合的 LLM 算子,并引入 C4(基于字节的压缩编码)后端路径。这对 LLM 推理的 KV cache 压缩有重要意义,C4 格式可以减少显存占用并提高缓存效率。

CPU: RVV 架构适配

Adapt CommonOptFunction for RVV architecture(#4426)以及后续的 RVV pack/unpack 函数修复(#4531)——MNN 正在系统性地适配 RISC-V Vector (RVV) 指令集。CommonOptFunction 是 MNN 中所有后端优化函数的分发中心,使其支持 RVV 意味着 MNN 可以在 RISC-V 设备上利用向量化指令加速推理。这对于日益增长的 RISC-V AI 芯片生态非常关键。

OpenCL 启发式调优

OpenCL backend supports heuristic guidance for quantized GEMM/GEMV and FP local size settings(#4537)——MNN 的 OpenCL 后端现在使用启发式策略来指导量化 GEMM/GEMV 的 workgroup 配置。传统上 OpenCL 的 local size 设置依赖硬编码或 exhaustive search,启发式方法可以根据输入形状和 GPU 特性动态选择最优配置,显著提升移动 GPU 上量化模型的推理性能。

TopKV2 GPU 原生支持

Add native TopKV2 GPU support for OpenCL IMAGE and Vulkan (image/buffer)(#4535)——TopK 算子是 beam search 解码的关键路径,此前在 GPU 上只能 fallback 到 CPU。原生 GPU 实现避免了跨后端的数据拷贝延迟。

LLM 推理优化

  • Treat linear_attention layers as full attention(#4539)——MNN 针对混合模型中 linear attention 层的注意力计算模式做了优化,将其视为 full attention 处理以避免特殊化路径的性能开销
  • Embedding decoder 导出修复:使用 causal mask 确保自回归解码的正确性

KleidiAI 子项目路径修复

Fix the KleidiAI path mapping while using MNN as a subproject(#4542)——当 MNN 作为第三方子项目被集成时,KleidiAI 的头文件路径映射会出现问题,现已修复。

其他修复

  • TFLite binary activation 转换修复(#4540)
  • Unique op 的 ONNX 规范对齐——输出必须按排序排列(#4544)
  • CPU 无 SDOT 指令时的 FP32 fallback 策略优化(#4534)

airockchip/rknn-llm — v1.3.0 发布

1 次提交

RKNN-LLM 发布了 v1.3.0 版本。虽然没有附带详细的 changelog,但考虑到 RKNN-LLM 是瑞芯微 NPU 上部署 LLM 的核心工具链,这次发布很可能包含了对新型号 NPU 的支持、量化方案优化和模型兼容性更新。


sophgo/LLM-TPU — Gemma4 与 Qwen3.5 支持

3 次提交

Gemma4 per_layer_token_embd 权重分离

该 PR(#157)为 Gemma4 模型实现了 per_layer_token_embd 权重的分离逻辑。Gemma4 采用了 MLA(Multi-head Latent Attention)+ 滑动窗口的混合注意力架构,其中某些层可能共享 token embedding 权重,而其他层使用独立的嵌入。per_layer 分离使得 TPU 编译器和运行时可以更精确地分配权重到不同的计算核心。

Qwen3.5 History Context 支持

support qwen3.5 history context——LLM-TPU 增加了对 Qwen3.5 对话历史上下文的管理能力。在 TPU 推理中,KV cache 的管理与 GPU 差异很大(TPU 的 SRAM 通常有限),高效的历史上下文管理对于长对话场景至关重要。


ggml-org/llama.cpp — AMX 优化、Eagle3、多模态修复密集迭代

30 次提交

AMX 矩阵乘法优化

optimize AMX (#24806) 是本周最具性能影响力的提交。通过对 n_batch × M 维度上的线程分区进行扁平化,使每个线程都能参与量化过程而非串行化。在 Intel Granite Rapids(Xeon Platinum 8488C)上,Qwen3.5 0.8B IQ4_NL 模型 pp512 测试从 730.71 t/s 提升到 779.86 t/s(~7% 加速)。AMX(Advanced Matrix Extensions)是 Intel 第四代/第五代至强上的矩阵加速指令,这一优化让 AMX 能更好地处理小 batch 场景。

Eagle3 投机解码支持

spec: support eagle3 for qwen3.5 & 3.6 (#24593)——llama.cpp 增加了对 Qwen3.5 和 Qwen3.6 的 Eagle3 投机解码支持。Eagle3 是 Qwen 团队提出的第三代投机解码架构,它利用 small draft model 生成候选 tokens,再由目标模型验证。这一优化在保持生成质量的同时,可使推理吞吐量提升 2-3×。

多模态修复:InternVL Batching + GLM-DSA

  • mtmd: add batching support for internvl (#24775)——InternVL 是一种多模态模型,batching 支持使其能够批量处理多模态输入,显著提高服务吞吐量
  • mtmd: several bug fixes (#24784)——一系列多模态解码器(mtmd)的 bug 修复
  • model: glm-dsa load DSA indexer tensors as optional (#24770)——GLM-5.2 引入了 DSA 索引器,但 llama.cpp 之前将其作为 mandatory tensor 加载导致加载失败,现改为 optional

Power10 MMA Matmul:K Tail 支持

support K tails in power10 Q8/Q4 MMA matmul (#24753)——IBM 贡献的 Power10 MMA(Matrix Math Assist)矩阵乘法路径现在支持 K 维度尾部不完整的情况,移除了 K 必须被 kc 整除的限制。这使得更多工作量可以使用 MMA kernel 加速,减少到 mnpack fallback 路径的降级。

CUDA: Col2Im 1D

cuda: add GGML_OP_COL2IM_1D (#24417)——在 CUDA 后端添加了 1D col2im(column-to-image)算子的支持,这是 audio 模型中常见的反卷积/重排操作。

Server 改进

  • server: consolidate slot selection into get_available_slot (#24755)——将 slot 选择逻辑统一为单一函数,简化 LLM serving 的 slot 管理层
  • server: add "X-Accel-Buffering": "no" header——为流式端点添加了 Nginx 反代理兼容头,防止 Nginx 缓冲破坏流式响应
  • server: refactor child --> router communication (#24821)——重构子进程到路由器的通信模型
  • server: optimize get_token_probabilities (#24796)——使用 std::partial_sort 代替对完整词表排序,在 n_top=0 时从 8555.6 μs 降至 704.3 μs(12× 加速)
  • server: add --agent arg (#24801)——添加 agent 模式,替代此前的 webui 命名

GGML 0.15.2 版本

ggml: bump version to 0.15.2——底层 GGML 库版本更新。


qualcomm/ai-hub-models — PT2 默认导出、GenieX 运行时、新模型加入

30 次提交

PT2(torch.export)设为默认导出路径

Update default to pt2 (#3492)——Qualcomm AI Hub 正式将 PT2(torch.export dynamo)设为默认的模型导出路径。此前静态的 AIMET-ONNX + QNN 流程将被 torch.export 的动态导出取代。同时,Qwen3-4B 也完成了从静态部署到 dynamic-shape (dynamo) 部署的迁移(#3491),使用 torch 2.10 的 torch.onnx.export(dynamo=True) 导出为 4 个 split part 的 w4a16 GENIE 格式。

GenieX 运行时

Add GenieX llama.cpp runtime schema and config (#3595)——新增 GenieX 的 llama.cpp 运行时。GenieX 是高通的专有推理运行时,与 llama.cpp 的集成意味着使用 GGUF 格式的模型可以直接在 GenieX 上运行,首批支持的模型包括 Gemma 4 系列和 LLama 3.2 等。

VoiceAI 运行时扩展

Add voiceai runtime and vocab for Whisper models (#3583)——将 VoiceAI 运行时和 vocab 支持扩展到更多的 Whisper 模型。此前仅 whisper_small_quantized 支持 VoiceAI,现在扩展到整个 Whisper 模型家族。

CLI 设备发现

Add devices/chipsets commands and device-based fetch (#3620)——CLI 新增了 deviceschipsets 子命令,用户可以直接查询可用设备和芯片,并基于设备型号拉取预编译模型资产。

新模型:GR00T-N1.5 (grootn15)

Add GR00T-N1.5 model (#3163)——高通与 NVIDIA 合作的 GR00T 机器人基础模型。这是一个包含 4 个组件的 GrootCollection 模型,支持 end-to-end 机器人操作推理 pipeline,使用 LeRobot 数据集进行评估。

其他值得关注的变化

  • FastSAM 评估和量化支持(#3431)
  • EyeGaze NPU 支持修复(#3567)——将 CPU 的 fallback 去掉,恢复 NPU 推理
  • Layer API 清理:移除 get_channel_lastget_output_names 等旧 API
  • 私有资产通过 S3 分发(#3572)
  • SDK 版本信息披露(#3613)

microsoft/onnxruntime — OpSet 27、FlashDecode 优化、AVX512 2bit 权重

30 次提交

ONNX 1.22.0 (OpSet 27) 集成

Integrate ONNX 1.22.0 (opset 27) (#28754)——ONNX Runtime 本周集成了 ONNX 1.22.0 RC1,最大 opset 版本从 26 提升到 27。这是重要的基础设施升级,后续将随 ONNX v1.22.0 正式版发布同步跟进。

CUDA: FlashDecode + LinearAttention 解码优化

  • Optimize FlashDecode split planning for local-window GQA (#29161)——对于滑动窗口注意力(local_window > 0),FlashDecode 的 split-K planning 之前使用完整的 total_sequence_length 来规划,而现在只考虑最后 local_window_size 个 KV 位置。这避免了不必要的 over-split,减少了 split-K combine 的开销
  • Add decode-optimized LinearAttention (GatedDeltaNet) kernels (#28985)——为 Qwen3-Next / Qwen3.6 等混合模型中的 gated-delta / linear-attention 循环添加了 decode 专用 CUDA kernel。在 seq_len=1 的 decode 阶段,原有 recurrent kernel 的 GPU 利用率很低,新的 decode kernel 使用 coalesced 内存访问方式读取 recurrent state,推理速度提升显著(PR 称在 GPT-OSS-20B 上 decode 性能大幅提高)

CUDA: 移除 TensorRT Fused Causal Attention

Remove TensorRT fused causal attention kernels (#29143)——移除了 TensorRT 融合因果注意力 kernel,这些 kernel 自 #14732 之后就被默认禁用,仅通过 opt-in 环境变量可达。移除后减少了二进制包体积约 10MB+,简化维护。

CUDA: GQA Attention Sink 支持

Enable XQA decode for GroupQueryAttention with attention sink (#29162)——为 GPT-OSS 风格的 decode 模型启用了 attention sink(head_sink)的 XQA decode kernel 支持。sink token 被视为 smooth-softmax 项,通过 PrePack 步骤将常量 head_sink initializer 转换为缓存 FP32 缓冲区,避免每步重复转换。

CPU: AVX512 2-bit 权重 Kernel

Add AVX512 (+VNNI) 2-bit weight CPU kernels (#29064)——这是本周 ORT 最值得关注的底层优化。此前 2-bit 权重的 MLAS kernel 仅支持 LUT-based kernel,存在形状限制(N 必须是 128 的倍数)且无法利用 VNNI 指令。新的 AVX512+VNNI kernel 大幅提升了 2-bit 量化的 prefill 性能(compute-bound 场景下效果显著)。

KleidiAI 修复与回归

  • KleidiAI fix igemm regression (#28571)——修复了 KleidiAI SME IGEMM 卷积路径的性能回归(影响 OCR 模型的大 kernel 卷积),采用分块 packed LHS 缓冲以降低内存消耗并改善缓存局部性
  • Fix NHWC conv support gating (#29127)——修复了 KleidiAI NHWC 卷积支持开关过于宽泛导致 depthwise/grouped 卷积被错误路由的性能问题

WebGPU: WGSL 生成器 Python 实现

Add python implementation for wgsl-gen (#28355)——将 WebGPU EP 的 WGSL 模板编译器的 Node.js 依赖替换为 Python 原生实现。这简化了 WebGPU EP 的构建依赖,不再需要 npm 包 @fs-eire/wgsl-template

XQA + MoE 修复

  • Harden QMoE against integer overflow and partial K tiles (#29067)——修复了 MoE decode GEMV 中当 intermediate_size 不是 64 倍数时产生 NaN 的问题
  • Fix QMoE CPU livelock by eliminating nested intra-op parallelism (#29081)——修复了 MoE CPU 推理多线程死锁:专家循环内部嵌套了线程池分发,导致线程池活锁
  • Default QMoE GEMV fp16 accumulation for fp16 activations (#29166)——当激活为 FP16 时,QMoE GEMV 默认使用 FP16 累加,相比 FP32 累加在 GPT-OSS-20B decode 上大幅性能提升

内存分析增强

Add memory stats to profiling (#29058)——新增了 bytes_requested_in_use 指标,追踪用户代码实际请求的内存量(排除内部碎片和对齐填充),使得内存分析更加精确。


microsoft/onnxruntime-genai — 安全加固与 Gemma4 兼容性

8 次提交

v0.15.0 发布 & CUDA win-arm64 构建

Update main to version 0.15.0 (#2183)——GenAI 扩展发布 v0.15.0 版本。同时添加了 Windows ARM64 上的 CUDA 构建支持(#2199),在 Arm 版的 Windows 设备(如 Surface Pro 11)上也可以利用 CUDA 加速生成式 AI。

BFloat16 Logits 修复

Fix BFloat16 logits returned as garbage (#2203)——一个关键的 bug fix:Logits::Get() 此前只将 FP16 输出转换为 float32,但跳过 BFloat16 的转换,导致 BFloat16 模型输出全部为乱码。修复后,BFloat16 和 FP16 模型都能正确解码。

Gemma4 Dual/MQA Attention 修复

Fix DefaultKeyValueCache: per-layer num_kv_heads for Gemma 4 dual/MQA attention (#2214)——Gemma 4 支持 dual head 和 multi-query attention(不同层有不同的 num_kv_heads),但 DefaultKeyValueCache 之前假定所有层 KV head 数一致,导致加载失败。修复后支持 per-layer KV cache shape 自动检测。

安全修复

  • top_k 参数验证——防止 top_k 超过模型词表大小导致越界访问(#2224)
  • EncodeBatch 空输入验证——防止除零错误(#2226)

pytorch/executorch — Arduino 支持、Gemma4 128K 上下文、WebGPU 框架化

30 次提交

Arduino 库支持

Add Arduino library support for ExecuTorch (#20221)——这是一个具有里程碑意义的变化:ExecuTorch 现在可以作为 Arduino 库分发,支持在 Arduino 微控制器上运行 PyTorch 模型。关键组件包括:

  • build_arduino_library.sh:从仓库源码组装可分发库
  • CMSIS-NN 内核支持
  • portable ops 集成

这意味着 PyTorch 的推理能力首次进入真正的 MCU 级设备(如 Arduino Uno、Nano 系列)。

Gemma4-31B 128K 长上下文

Enable 128k context for Gemma4-31B CUDA (#20316)——通过 TurboQuant TQ4(4-bit)格式实现 Gemma4-31B 的 128K 长上下文端到端推理。修复了融合 TQ4 attention kernel 使其可被 CUDA graph 捕获,decode/prefill 现在随实际上下文长度扩展。50 个滑动窗口层保持 2048-entry ring cache 不变。

WebGPU 后端框架化

本周 ExecuTorch WebGPU 后端有显著的基础设施改进:

  • Mul op with full broadcast (aten.mul.Tensor)——Mul 是 Llama 推理的关键路径(SiLU 分解为 sigmoid + mul,SwiGLU 跨激活相乘),已支持完整 PyTorch broadcast
  • Op-test codegen framework——受 Vulkan 启发的声明式 op 测试框架,用 Python 生成 .pte + golden 数据,C++ gtest 驱动,大幅降低添加新 op 的门槛
  • README 刷新——记录了 fused SDPA with KV cache、GPU 时间戳 profiling、4-bit weight-only quantized linear 等新里程碑进展

MLX Backend 内存优化

Reduce physical footprint memory (#20342, #20341)——MLX 后端针对 Gemma4-31B 做了两项内存优化:

  • Slot 池回收:handler 创建的临时 slot 在执行后返回池中复用,4K 上下文的导出物理占用从 13.16 GiB 降至 2.62 GiB(降幅 80%)
  • Ring buffer 尺寸优化:chunked prefill 时 ring buffer 不需要 2× window size,只需要 window_size + max_write_length - 1,再节省约 0.68 GiB

Qwen3.5-MoE OpenAI 服务入口

Add OpenAI serving entrypoint (#20313)——为 Qwen3.5-MoE 模型添加了兼容 OpenAI API 的服务入口。Python 进程作为 HTTP 控制平面(聊天模板、请求验证、session 亲和性、工具解析),C++ worker 进程通过通用 LLM server JSONL 协议执行模型推理。

CapabilityBasedPartitioner

Use CapabilityBasedPartitioner in AotiPartitioner (#20384)——AotiPartitioner(CUDA/Metal 后端的基类)切换到共享的 CapabilityBasedPartitioner 框架,与其他后端(XNNPACK、Vulkan、CoreML)保持一致。这使得 CUDA/Metal 后端可以使用一致的算子支持检查和分区策略。

QNN Backend 增强

  • addmm coreATen op support (#20355)——为 QNN 后端添加了 aten.addmm 支持,通过 AddmmToLinearTransform 将常见 Linear 模式转回 QNN 的 fused FullyConnected op
  • native_layer_norm and affine-free LayerNorm (#18990)——支持无 weight/bias 的 LayerNorm
  • Linux 主机 QNN 后端构建支持(#19889)

FP32 累加修复

portable: accumulate in fp32 for Half/BFloat16——softmax、log_softmax、mean、sum 等规约操作现在在 BFloat16/Half 下使用 FP32 累加,避免 BFloat16 累加在 256 处饱和导致的精度灾难。

Arm Backend

  • CMSIS Pack 构建基础设施(#19942)——为 Arm 嵌入式生态提供了 CMake 包分发
  • TOSA dialect op 真实实现(#19936)——从桩函数升级为真实实现,覆盖所有 TOSA dialect op
  • Bundled program 直接序列化(#20217)——跳过 JSON 中间步骤,直接 Python flatbuffer 序列化,效率大幅提升

Cortex-M & NXP

  • Cortex-M 后端最小化 CMSIS-NN 依赖(#20371)
  • NXP 后端 mean.dim 格式问题修复(#20218)

apache/tvm — Z3 SMT 求解器、TensorRT BYOC、ONNX NaN 语义对齐

30 次提交

Z3 SMT 求解器集成

Add optional Z3-backed proving to Analyzer (#19667)——本周 TVM 最引人注目的变化是在 tvm::arith::Analyzer 中集成了 Z3 SMT(Satisfiability Modulo Theories)求解器作为整数算术证明的后端。当 Z3 可用时,Analyzer::CanProve 先运行 TVM 自身的算术分析路径,如果无法证明则 fallback 到 Z3。这使得 TVM 编译器可以验证更复杂的循环边界和索引范围,有望提升自动调优和安全分析能力。

TensorRT BYOC 推进

  • Add partition_for_tensorrt and a pattern table (#19820)——提供了 partition_for_tensorrt 函数,这是 BYOC(Bring Your Own Codegen)的入口点,将子图卸载到 TensorRT
  • Update BYOC operator converters from Relay to Relax (#19810)——将 TensorRT 算子转换器从 Relay 风格移植到 Relax 风格,修复了属性名称和形状不匹配导致的大多数 op 崩溃问题
  • Rework Bring Your Own Codegen tutorial and add TensorRT example (#19839)——重写了 BYOC 教程,增加了 TensorRT 真实示例

ONNX 前端修复与 NaN 语义对齐

  • NonMaxSuppression:接受 1-D 单元素标量输入(NumPy 2.x 兼容性修复)
  • Drop NaN-preservation isnan-where wrappers——移除了之前在 Relu、Sign、Clip、ReduceMax/Min 中添加的 NaN 保留保护(isnan + where),因为 ONNX Runtime 的最新行为不再要求这些层的 NaN 保留
  • BatchNormalization inference mode fixed——将 ONNX 的 training_mode(int 0/1)正确转换为 bool
  • GridSample 5D volumetric input——支持 5D 体积数据(N,C,D,H,W)的 grid_sample

Arith 基础设施

  • Add Analyzer::Clone for deep-copying analyzer state (#19836)——允许 pass 快照分析器状态并在不改变原始状态的情况下继续探索
  • Restrict floormod coefficient reduction (#19832)——修复了 floormod/floordiv 系数规约导致 DetectIterMap 不稳定的回归
  • Let IRMutatorWithAnalyzer take a const Analyzer& (#19829)——API 现代化

TFLite 前端增强

  • Add missing TFLite operator mappings (#19813)——添加了 SIGN、BITWISE_XOR、RIGHT_SHIFT、RELU_0_TO_1、BUCKETIZE 等操作的直接映射
  • Add RFFT2D op and supporting TIR kernels (#19812)——添加了 2D 实值 FFT 操作和对应的 TIR 底层 kernel 实现

CI 与构建现代化

  • Bump tvm-ffi:RuntimeTypeIndex 优化、隐藏静态链接库符号
  • CI 镜像:迁移到 sphinx-book-theme 文档主题
  • 硬编码 fallback 版本字符串更新到 v0.26.dev0
  • 测试基础设施清理:移除废弃的 tvm.testing 辅助函数和 parametrize_targets

总结

仓库 提交数 本周亮点
ncnn 4 Vulkan INT8 kernel, batch 推理基础设施
MNN 14 v3.6.0 发布, RVV 适配, OpenCL 启发式调优
RKNN-LLM 1 v1.3.0 发布
LLM-TPU 3 Gemma4 权重分离, Qwen3.5 context
llama.cpp 30 AMX 优化, Eagle3, Power10 MMA, Server 重构
AI Hub 30 PT2 默认导出, GenieX 运行时, GR00T 新模型
ONNX Runtime 30 OpSet 27, FlashDecode/LinearAttention, AVX512 2bit
ONNX GenAI 8 v0.15.0, BFloat16 修复, Gemma4 KV cache
ExecuTorch 30 Arduino MCU 支持, 128K context, WebGPU 框架化, MLX 内存优化
TVM 30 Z3 SMT, TensorRT BYOC, ONNX NaN 语义对齐

本周跨项目的一个共同趋势是对混合架构模型(Qwen3-Next / Gemma4)的全面适配——这些模型引入了 MLA、linear attention、滑动窗口等新注意力范式,推理框架正在快速跟进。

另一个显著趋势是多后端、多硬件统一——ncnn 加 Vulkan INT8,MNN 适配 RVV,ONNX Runtime 做 KleidiAI/AVX512/WebGPU,Executorch 做 Arduino/CMSIS-Pack——每个框架都在拓展自己的硬件边界。