端侧 AI 推理框架周报（2026-06-14 ~ 2026-06-21）

概述

本周（2026-06-14 ~ 2026-06-21）监控的 15 个开源仓库中有 10 个产生更新，合计 180 次提交。几个值得关注的趋势：

llama.cpp / ONNX Runtime / ExecuTorch / TVM 活跃度极高（各 30+ 提交），围绕多模态、混合模型、长上下文和量化推理展开密集迭代
MNN 3.6.0 正式发布，带来 OpenCL 启发式调优、RVV 适配等基础设施改进
Qualcomm AI Hub 全面转向 PT2 导出，新增 GenieX/GenieX_llama.cpp 运行时
RKNN-LLM v1.3.0 发布

tencent/ncnn — Vulkan INT8 内核与批量推理基础设施

4 次提交

Vulkan INT8 内核

本周 ncnn 的核心变化是为 Vulkan 后端添加了 INT8 量化推理路径（#6751）。具体来说，nihui 实现了以下层的 Vulkan INT8 kernel：

Convolution — 卷积层 INT8 shader
ConvolutionDepthWise — 深度可分离卷积 INT8 shader
InnerProduct — 全连接层 INT8 shader
GEMM — 通用矩阵乘法 INT8 shader

这些 kernel 包含 scalar fallback 和 integer dot product shader 两条分支，使 GPU 推理能充分利用移动端 GPU（如 Adreno）的硬件 INT8 dot-product 指令。同时启用了 INT8 GPU benchmark。

意义：端侧 GPU 推理长期以 FP16 为主流，但 INT8 量化可在带宽受限场景（如手机 NPU+GPU 混合调度）中获得 2× 吞吐量提升。ncnv Vulkan INT8 的引入填补了移动端 GPU 量化推理的空缺。

批量推理基础设施

batch infrastructure（#6656）为 ncnn 增加了 batch-aware 的记录上传下载机制和 cast/packing batch 支持。这是 ncnn 向动态批量推理迈出的重要一步，使得单次推理请求可以打包多个输入，显著提高 GPU 利用率。

Vulkan Subgroup 扩展查询

query VK_KHR_shader_subgroup_extended_types features（#6780）——ncnn 现在会主动查询 Vulkan 设备的 subgroup extended types 特性支持情况，并据此 sanitize FP16 subgroup 路径。这避免了在不支持 FP16 subgroup 的硬件上产生非法指令。

alibaba/MNN — v3.6.0 发布，RVV 适配与 OpenCL 调优

14 次提交

MNN 3.6.0 Release

MNN 本周正式发布 v3.6.0（#4545）。围绕该版本的 CI 工作流也同步刷新：启用 LLM/OMNI 构建、新增 HarmonyOS 支持、Android 16K 页面大小适配（#4541）。

Fused LLM Ops 与 C4 Backend

Add fused LLM ops and C4 backend paths（#4554）——MNN 新增了融合的 LLM 算子，并引入 C4（基于字节的压缩编码）后端路径。这对 LLM 推理的 KV cache 压缩有重要意义，C4 格式可以减少显存占用并提高缓存效率。

CPU: RVV 架构适配

Adapt CommonOptFunction for RVV architecture（#4426）以及后续的 RVV pack/unpack 函数修复（#4531）——MNN 正在系统性地适配 RISC-V Vector (RVV) 指令集。CommonOptFunction 是 MNN 中所有后端优化函数的分发中心，使其支持 RVV 意味着 MNN 可以在 RISC-V 设备上利用向量化指令加速推理。这对于日益增长的 RISC-V AI 芯片生态非常关键。

OpenCL 启发式调优

OpenCL backend supports heuristic guidance for quantized GEMM/GEMV and FP local size settings（#4537）——MNN 的 OpenCL 后端现在使用启发式策略来指导量化 GEMM/GEMV 的 workgroup 配置。传统上 OpenCL 的 local size 设置依赖硬编码或 exhaustive search，启发式方法可以根据输入形状和 GPU 特性动态选择最优配置，显著提升移动 GPU 上量化模型的推理性能。

TopKV2 GPU 原生支持

Add native TopKV2 GPU support for OpenCL IMAGE and Vulkan (image/buffer)（#4535）——TopK 算子是 beam search 解码的关键路径，此前在 GPU 上只能 fallback 到 CPU。原生 GPU 实现避免了跨后端的数据拷贝延迟。

LLM 推理优化

Treat linear_attention layers as full attention（#4539）——MNN 针对混合模型中 linear attention 层的注意力计算模式做了优化，将其视为 full attention 处理以避免特殊化路径的性能开销
Embedding decoder 导出修复：使用 causal mask 确保自回归解码的正确性

KleidiAI 子项目路径修复

Fix the KleidiAI path mapping while using MNN as a subproject（#4542）——当 MNN 作为第三方子项目被集成时，KleidiAI 的头文件路径映射会出现问题，现已修复。

其他修复

TFLite binary activation 转换修复（#4540）
Unique op 的 ONNX 规范对齐——输出必须按排序排列（#4544）
CPU 无 SDOT 指令时的 FP32 fallback 策略优化（#4534）

airockchip/rknn-llm — v1.3.0 发布

1 次提交

RKNN-LLM 发布了 v1.3.0 版本。虽然没有附带详细的 changelog，但考虑到 RKNN-LLM 是瑞芯微 NPU 上部署 LLM 的核心工具链，这次发布很可能包含了对新型号 NPU 的支持、量化方案优化和模型兼容性更新。

sophgo/LLM-TPU — Gemma4 与 Qwen3.5 支持

3 次提交

Gemma4 per_layer_token_embd 权重分离

该 PR（#157）为 Gemma4 模型实现了 per_layer_token_embd 权重的分离逻辑。Gemma4 采用了 MLA（Multi-head Latent Attention）+ 滑动窗口的混合注意力架构，其中某些层可能共享 token embedding 权重，而其他层使用独立的嵌入。per_layer 分离使得 TPU 编译器和运行时可以更精确地分配权重到不同的计算核心。

Qwen3.5 History Context 支持

support qwen3.5 history context——LLM-TPU 增加了对 Qwen3.5 对话历史上下文的管理能力。在 TPU 推理中，KV cache 的管理与 GPU 差异很大（TPU 的 SRAM 通常有限），高效的历史上下文管理对于长对话场景至关重要。

ggml-org/llama.cpp — AMX 优化、Eagle3、多模态修复密集迭代

30 次提交

AMX 矩阵乘法优化

optimize AMX (#24806) 是本周最具性能影响力的提交。通过对 n_batch × M 维度上的线程分区进行扁平化，使每个线程都能参与量化过程而非串行化。在 Intel Granite Rapids（Xeon Platinum 8488C）上，Qwen3.5 0.8B IQ4_NL 模型 pp512 测试从 730.71 t/s 提升到 779.86 t/s（~7% 加速）。AMX（Advanced Matrix Extensions）是 Intel 第四代/第五代至强上的矩阵加速指令，这一优化让 AMX 能更好地处理小 batch 场景。

Eagle3 投机解码支持

spec: support eagle3 for qwen3.5 & 3.6 (#24593)——llama.cpp 增加了对 Qwen3.5 和 Qwen3.6 的 Eagle3 投机解码支持。Eagle3 是 Qwen 团队提出的第三代投机解码架构，它利用 small draft model 生成候选 tokens，再由目标模型验证。这一优化在保持生成质量的同时，可使推理吞吐量提升 2-3×。

多模态修复：InternVL Batching + GLM-DSA

mtmd: add batching support for internvl (#24775)——InternVL 是一种多模态模型，batching 支持使其能够批量处理多模态输入，显著提高服务吞吐量
mtmd: several bug fixes (#24784)——一系列多模态解码器（mtmd）的 bug 修复
model: glm-dsa load DSA indexer tensors as optional (#24770)——GLM-5.2 引入了 DSA 索引器，但 llama.cpp 之前将其作为 mandatory tensor 加载导致加载失败，现改为 optional

Power10 MMA Matmul：K Tail 支持

support K tails in power10 Q8/Q4 MMA matmul (#24753)——IBM 贡献的 Power10 MMA（Matrix Math Assist）矩阵乘法路径现在支持 K 维度尾部不完整的情况，移除了 K 必须被 kc 整除的限制。这使得更多工作量可以使用 MMA kernel 加速，减少到 mnpack fallback 路径的降级。

CUDA: Col2Im 1D

cuda: add GGML_OP_COL2IM_1D (#24417)——在 CUDA 后端添加了 1D col2im（column-to-image）算子的支持，这是 audio 模型中常见的反卷积/重排操作。

Server 改进

server: consolidate slot selection into get_available_slot (#24755)——将 slot 选择逻辑统一为单一函数，简化 LLM serving 的 slot 管理层
server: add "X-Accel-Buffering": "no" header——为流式端点添加了 Nginx 反代理兼容头，防止 Nginx 缓冲破坏流式响应
server: refactor child --> router communication (#24821)——重构子进程到路由器的通信模型
server: optimize get_token_probabilities (#24796)——使用 std::partial_sort 代替对完整词表排序，在 n_top=0 时从 8555.6 μs 降至 704.3 μs（12× 加速）
server: add --agent arg (#24801)——添加 agent 模式，替代此前的 webui 命名

GGML 0.15.2 版本

ggml: bump version to 0.15.2——底层 GGML 库版本更新。

qualcomm/ai-hub-models — PT2 默认导出、GenieX 运行时、新模型加入

30 次提交

PT2（torch.export）设为默认导出路径

Update default to pt2 (#3492)——Qualcomm AI Hub 正式将 PT2（torch.export dynamo）设为默认的模型导出路径。此前静态的 AIMET-ONNX + QNN 流程将被 torch.export 的动态导出取代。同时，Qwen3-4B 也完成了从静态部署到 dynamic-shape (dynamo) 部署的迁移（#3491），使用 torch 2.10 的 torch.onnx.export(dynamo=True) 导出为 4 个 split part 的 w4a16 GENIE 格式。

GenieX 运行时

Add GenieX llama.cpp runtime schema and config (#3595)——新增 GenieX 的 llama.cpp 运行时。GenieX 是高通的专有推理运行时，与 llama.cpp 的集成意味着使用 GGUF 格式的模型可以直接在 GenieX 上运行，首批支持的模型包括 Gemma 4 系列和 LLama 3.2 等。

VoiceAI 运行时扩展

Add voiceai runtime and vocab for Whisper models (#3583)——将 VoiceAI 运行时和 vocab 支持扩展到更多的 Whisper 模型。此前仅 whisper_small_quantized 支持 VoiceAI，现在扩展到整个 Whisper 模型家族。

CLI 设备发现

Add devices/chipsets commands and device-based fetch (#3620)——CLI 新增了 devices 和 chipsets 子命令，用户可以直接查询可用设备和芯片，并基于设备型号拉取预编译模型资产。

新模型：GR00T-N1.5 (grootn15)

Add GR00T-N1.5 model (#3163)——高通与 NVIDIA 合作的 GR00T 机器人基础模型。这是一个包含 4 个组件的 GrootCollection 模型，支持 end-to-end 机器人操作推理 pipeline，使用 LeRobot 数据集进行评估。

其他值得关注的变化

FastSAM 评估和量化支持（#3431）
EyeGaze NPU 支持修复（#3567）——将 CPU 的 fallback 去掉，恢复 NPU 推理
Layer API 清理：移除 get_channel_last 和 get_output_names 等旧 API
私有资产通过 S3 分发（#3572）
SDK 版本信息披露（#3613）

microsoft/onnxruntime — OpSet 27、FlashDecode 优化、AVX512 2bit 权重

30 次提交

ONNX 1.22.0 (OpSet 27) 集成

Integrate ONNX 1.22.0 (opset 27) (#28754)——ONNX Runtime 本周集成了 ONNX 1.22.0 RC1，最大 opset 版本从 26 提升到 27。这是重要的基础设施升级，后续将随 ONNX v1.22.0 正式版发布同步跟进。

CUDA: FlashDecode + LinearAttention 解码优化

Optimize FlashDecode split planning for local-window GQA (#29161)——对于滑动窗口注意力（local_window > 0），FlashDecode 的 split-K planning 之前使用完整的 total_sequence_length 来规划，而现在只考虑最后 local_window_size 个 KV 位置。这避免了不必要的 over-split，减少了 split-K combine 的开销
Add decode-optimized LinearAttention (GatedDeltaNet) kernels (#28985)——为 Qwen3-Next / Qwen3.6 等混合模型中的 gated-delta / linear-attention 循环添加了 decode 专用 CUDA kernel。在 seq_len=1 的 decode 阶段，原有 recurrent kernel 的 GPU 利用率很低，新的 decode kernel 使用 coalesced 内存访问方式读取 recurrent state，推理速度提升显著（PR 称在 GPT-OSS-20B 上 decode 性能大幅提高）

CUDA: 移除 TensorRT Fused Causal Attention

Remove TensorRT fused causal attention kernels (#29143)——移除了 TensorRT 融合因果注意力 kernel，这些 kernel 自 #14732 之后就被默认禁用，仅通过 opt-in 环境变量可达。移除后减少了二进制包体积约 10MB+，简化维护。

CUDA: GQA Attention Sink 支持

Enable XQA decode for GroupQueryAttention with attention sink (#29162)——为 GPT-OSS 风格的 decode 模型启用了 attention sink（head_sink）的 XQA decode kernel 支持。sink token 被视为 smooth-softmax 项，通过 PrePack 步骤将常量 head_sink initializer 转换为缓存 FP32 缓冲区，避免每步重复转换。

CPU: AVX512 2-bit 权重 Kernel

Add AVX512 (+VNNI) 2-bit weight CPU kernels (#29064)——这是本周 ORT 最值得关注的底层优化。此前 2-bit 权重的 MLAS kernel 仅支持 LUT-based kernel，存在形状限制（N 必须是 128 的倍数）且无法利用 VNNI 指令。新的 AVX512+VNNI kernel 大幅提升了 2-bit 量化的 prefill 性能（compute-bound 场景下效果显著）。

KleidiAI 修复与回归

KleidiAI fix igemm regression (#28571)——修复了 KleidiAI SME IGEMM 卷积路径的性能回归（影响 OCR 模型的大 kernel 卷积），采用分块 packed LHS 缓冲以降低内存消耗并改善缓存局部性
Fix NHWC conv support gating (#29127)——修复了 KleidiAI NHWC 卷积支持开关过于宽泛导致 depthwise/grouped 卷积被错误路由的性能问题

WebGPU: WGSL 生成器 Python 实现

Add python implementation for wgsl-gen (#28355)——将 WebGPU EP 的 WGSL 模板编译器的 Node.js 依赖替换为 Python 原生实现。这简化了 WebGPU EP 的构建依赖，不再需要 npm 包 @fs-eire/wgsl-template。

XQA + MoE 修复

Harden QMoE against integer overflow and partial K tiles (#29067)——修复了 MoE decode GEMV 中当 intermediate_size 不是 64 倍数时产生 NaN 的问题
Fix QMoE CPU livelock by eliminating nested intra-op parallelism (#29081)——修复了 MoE CPU 推理多线程死锁：专家循环内部嵌套了线程池分发，导致线程池活锁
Default QMoE GEMV fp16 accumulation for fp16 activations (#29166)——当激活为 FP16 时，QMoE GEMV 默认使用 FP16 累加，相比 FP32 累加在 GPT-OSS-20B decode 上大幅性能提升

内存分析增强

Add memory stats to profiling (#29058)——新增了 bytes_requested_in_use 指标，追踪用户代码实际请求的内存量（排除内部碎片和对齐填充），使得内存分析更加精确。

microsoft/onnxruntime-genai — 安全加固与 Gemma4 兼容性

8 次提交

v0.15.0 发布 & CUDA win-arm64 构建

Update main to version 0.15.0 (#2183)——GenAI 扩展发布 v0.15.0 版本。同时添加了 Windows ARM64 上的 CUDA 构建支持（#2199），在 Arm 版的 Windows 设备（如 Surface Pro 11）上也可以利用 CUDA 加速生成式 AI。

BFloat16 Logits 修复

Fix BFloat16 logits returned as garbage (#2203)——一个关键的 bug fix：Logits::Get() 此前只将 FP16 输出转换为 float32，但跳过 BFloat16 的转换，导致 BFloat16 模型输出全部为乱码。修复后，BFloat16 和 FP16 模型都能正确解码。

Gemma4 Dual/MQA Attention 修复

Fix DefaultKeyValueCache: per-layer num_kv_heads for Gemma 4 dual/MQA attention (#2214)——Gemma 4 支持 dual head 和 multi-query attention（不同层有不同的 num_kv_heads），但 DefaultKeyValueCache 之前假定所有层 KV head 数一致，导致加载失败。修复后支持 per-layer KV cache shape 自动检测。

安全修复

top_k 参数验证——防止 top_k 超过模型词表大小导致越界访问（#2224）
EncodeBatch 空输入验证——防止除零错误（#2226）

pytorch/executorch — Arduino 支持、Gemma4 128K 上下文、WebGPU 框架化

30 次提交

Arduino 库支持

Add Arduino library support for ExecuTorch (#20221)——这是一个具有里程碑意义的变化：ExecuTorch 现在可以作为 Arduino 库分发，支持在 Arduino 微控制器上运行 PyTorch 模型。关键组件包括：

build_arduino_library.sh：从仓库源码组装可分发库
CMSIS-NN 内核支持
portable ops 集成

这意味着 PyTorch 的推理能力首次进入真正的 MCU 级设备（如 Arduino Uno、Nano 系列）。

Gemma4-31B 128K 长上下文

Enable 128k context for Gemma4-31B CUDA (#20316)——通过 TurboQuant TQ4（4-bit）格式实现 Gemma4-31B 的 128K 长上下文端到端推理。修复了融合 TQ4 attention kernel 使其可被 CUDA graph 捕获，decode/prefill 现在随实际上下文长度扩展。50 个滑动窗口层保持 2048-entry ring cache 不变。

WebGPU 后端框架化

本周 ExecuTorch WebGPU 后端有显著的基础设施改进：

Mul op with full broadcast (aten.mul.Tensor)——Mul 是 Llama 推理的关键路径（SiLU 分解为 sigmoid + mul，SwiGLU 跨激活相乘），已支持完整 PyTorch broadcast
Op-test codegen framework——受 Vulkan 启发的声明式 op 测试框架，用 Python 生成 .pte + golden 数据，C++ gtest 驱动，大幅降低添加新 op 的门槛
README 刷新——记录了 fused SDPA with KV cache、GPU 时间戳 profiling、4-bit weight-only quantized linear 等新里程碑进展

MLX Backend 内存优化

Reduce physical footprint memory (#20342, #20341)——MLX 后端针对 Gemma4-31B 做了两项内存优化：

Slot 池回收：handler 创建的临时 slot 在执行后返回池中复用，4K 上下文的导出物理占用从 13.16 GiB 降至 2.62 GiB（降幅 80%）
Ring buffer 尺寸优化：chunked prefill 时 ring buffer 不需要 2× window size，只需要 window_size + max_write_length - 1，再节省约 0.68 GiB

Qwen3.5-MoE OpenAI 服务入口

Add OpenAI serving entrypoint (#20313)——为 Qwen3.5-MoE 模型添加了兼容 OpenAI API 的服务入口。Python 进程作为 HTTP 控制平面（聊天模板、请求验证、session 亲和性、工具解析），C++ worker 进程通过通用 LLM server JSONL 协议执行模型推理。

CapabilityBasedPartitioner

Use CapabilityBasedPartitioner in AotiPartitioner (#20384)——AotiPartitioner（CUDA/Metal 后端的基类）切换到共享的 CapabilityBasedPartitioner 框架，与其他后端（XNNPACK、Vulkan、CoreML）保持一致。这使得 CUDA/Metal 后端可以使用一致的算子支持检查和分区策略。

QNN Backend 增强

addmm coreATen op support (#20355)——为 QNN 后端添加了 aten.addmm 支持，通过 AddmmToLinearTransform 将常见 Linear 模式转回 QNN 的 fused FullyConnected op
native_layer_norm and affine-free LayerNorm (#18990)——支持无 weight/bias 的 LayerNorm
Linux 主机 QNN 后端构建支持（#19889）

FP32 累加修复

portable: accumulate in fp32 for Half/BFloat16——softmax、log_softmax、mean、sum 等规约操作现在在 BFloat16/Half 下使用 FP32 累加，避免 BFloat16 累加在 256 处饱和导致的精度灾难。

Arm Backend

CMSIS Pack 构建基础设施（#19942）——为 Arm 嵌入式生态提供了 CMake 包分发
TOSA dialect op 真实实现（#19936）——从桩函数升级为真实实现，覆盖所有 TOSA dialect op
Bundled program 直接序列化（#20217）——跳过 JSON 中间步骤，直接 Python flatbuffer 序列化，效率大幅提升

Cortex-M & NXP

Cortex-M 后端最小化 CMSIS-NN 依赖（#20371）
NXP 后端 mean.dim 格式问题修复（#20218）

apache/tvm — Z3 SMT 求解器、TensorRT BYOC、ONNX NaN 语义对齐

30 次提交

Z3 SMT 求解器集成

Add optional Z3-backed proving to Analyzer (#19667)——本周 TVM 最引人注目的变化是在 tvm::arith::Analyzer 中集成了 Z3 SMT（Satisfiability Modulo Theories）求解器作为整数算术证明的后端。当 Z3 可用时，Analyzer::CanProve 先运行 TVM 自身的算术分析路径，如果无法证明则 fallback 到 Z3。这使得 TVM 编译器可以验证更复杂的循环边界和索引范围，有望提升自动调优和安全分析能力。

TensorRT BYOC 推进

Add partition_for_tensorrt and a pattern table (#19820)——提供了 partition_for_tensorrt 函数，这是 BYOC（Bring Your Own Codegen）的入口点，将子图卸载到 TensorRT
Update BYOC operator converters from Relay to Relax (#19810)——将 TensorRT 算子转换器从 Relay 风格移植到 Relax 风格，修复了属性名称和形状不匹配导致的大多数 op 崩溃问题
Rework Bring Your Own Codegen tutorial and add TensorRT example (#19839)——重写了 BYOC 教程，增加了 TensorRT 真实示例

ONNX 前端修复与 NaN 语义对齐

NonMaxSuppression：接受 1-D 单元素标量输入（NumPy 2.x 兼容性修复）
Drop NaN-preservation isnan-where wrappers——移除了之前在 Relu、Sign、Clip、ReduceMax/Min 中添加的 NaN 保留保护（isnan + where），因为 ONNX Runtime 的最新行为不再要求这些层的 NaN 保留
BatchNormalization inference mode fixed——将 ONNX 的 training_mode（int 0/1）正确转换为 bool
GridSample 5D volumetric input——支持 5D 体积数据（N,C,D,H,W）的 grid_sample

Arith 基础设施

Add Analyzer::Clone for deep-copying analyzer state (#19836)——允许 pass 快照分析器状态并在不改变原始状态的情况下继续探索
Restrict floormod coefficient reduction (#19832)——修复了 floormod/floordiv 系数规约导致 DetectIterMap 不稳定的回归
Let IRMutatorWithAnalyzer take a const Analyzer& (#19829)——API 现代化

TFLite 前端增强

Add missing TFLite operator mappings (#19813)——添加了 SIGN、BITWISE_XOR、RIGHT_SHIFT、RELU_0_TO_1、BUCKETIZE 等操作的直接映射
Add RFFT2D op and supporting TIR kernels (#19812)——添加了 2D 实值 FFT 操作和对应的 TIR 底层 kernel 实现

CI 与构建现代化

Bump tvm-ffi：RuntimeTypeIndex 优化、隐藏静态链接库符号
CI 镜像：迁移到 sphinx-book-theme 文档主题
硬编码 fallback 版本字符串更新到 v0.26.dev0
测试基础设施清理：移除废弃的 tvm.testing 辅助函数和 parametrize_targets

总结

仓库	提交数	本周亮点
ncnn	4	Vulkan INT8 kernel, batch 推理基础设施
MNN	14	v3.6.0 发布, RVV 适配, OpenCL 启发式调优
RKNN-LLM	1	v1.3.0 发布
LLM-TPU	3	Gemma4 权重分离, Qwen3.5 context
llama.cpp	30	AMX 优化, Eagle3, Power10 MMA, Server 重构
AI Hub	30	PT2 默认导出, GenieX 运行时, GR00T 新模型
ONNX Runtime	30	OpSet 27, FlashDecode/LinearAttention, AVX512 2bit
ONNX GenAI	8	v0.15.0, BFloat16 修复, Gemma4 KV cache
ExecuTorch	30	Arduino MCU 支持, 128K context, WebGPU 框架化, MLX 内存优化
TVM	30	Z3 SMT, TensorRT BYOC, ONNX NaN 语义对齐

本周跨项目的一个共同趋势是对混合架构模型（Qwen3-Next / Gemma4）的全面适配——这些模型引入了 MLA、linear attention、滑动窗口等新注意力范式，推理框架正在快速跟进。

另一个显著趋势是多后端、多硬件统一——ncnn 加 Vulkan INT8，MNN 适配 RVV，ONNX Runtime 做 KleidiAI/AVX512/WebGPU，Executorch 做 Arduino/CMSIS-Pack——每个框架都在拓展自己的硬件边界。