端侧AI部署的胜负正从框架转向插件契约

核心观点

端侧 AI 软件栈的竞争正在从“选择哪个推理框架”转向“谁能把硬件能力稳定插进主流框架,并长期维持 ABI、算子覆盖、量化精度和 OTA 更新”。Qualcomm 的 ONNX Runtime Plugin EP、Google LiteRT-LM、ExecuTorch 和 OpenVINO 都在把模型部署拆成更清晰的契约层:模型格式、图分区、硬件后端、量化策略、运行时加载和应用生命周期。一个可验证的反共识判断是:开源推理框架不会简单削弱芯片厂商的话语权,反而会放大那些能持续交付高质量 EP、delegate、model zoo 和生产级更新链路的硬件平台。未来 1 到 4 周最值得盯的不是单次 demo 速度,而是这些插件和后端能否在真实设备上保持版本独立、精度稳定和故障可诊断。

本期主线

本期主线是端侧模型部署进入“接口标准化、后端厂商化、应用交付容器化”的阶段。ONNX Runtime、LiteRT、ExecuTorch、OpenVINO 这类框架正在承担共同的抽象层,但真正决定量产门槛的仍是厂商后端能否把 NPU、GPU、DSP、ISP、MCU 和内存系统接起来,并给开发者留下可复现的模型转换、量化、调试和升级路径。

这条线对端侧芯片公司很现实:TOPS 仍然重要,但它只有在算子覆盖、图分区成功率、模型库、容器交付、系统更新和长期维护都跑通后,才会变成客户可采购的能力。Qualcomm、Google、Meta/PyTorch、Intel、NVIDIA、瑞芯微和联发科的近期动作共同说明,端侧 AI 的下一个门槛不是“能不能跑一个小模型”,而是“能不能把不同模型作为可维护的软件资产交付到大量异构设备上”。

重点进展

Qualcomm 推出 ONNX Runtime 公共 Plugin EP

  • 事实:Qualcomm 于 2026 年 5 月 20 日发布 Qualcomm Plugin Execution Provider for ONNX Runtime,称其由 Qualcomm AI Stack 驱动,是首个公开可用的 ONNX Runtime Plugin EP;该插件面向 Android、Windows、Linux 以及移动、PC、IoT、机器人等 Qualcomm 平台,通过动态加载的共享库与 ONNX Runtime 核心解耦。
  • 我的判断:这件事的核心不是 Qualcomm 又支持了一次 ONNX,而是把 NPU 后端从 ONNX Runtime 主仓的发布周期中拆出来。端侧量产项目最怕“模型、运行时、SDK、系统镜像一起锁死”,Plugin EP 如果成立,会把硬件优化、算子扩展和 bug 修复变成更独立的供应节奏。
  • 产业影响:对 Snapdragon、Dragonwing 和机器人平台来说,软件栈确定性会直接影响客户是否敢把 ONNX 作为长期模型资产格式。对其他芯片厂商来说,能否提供同等级的外部 EP、稳定接口和版本兼容承诺,会成为比宣传模型数量更硬的竞争指标。
  • 后续观察:关注 Qualcomm Plugin EP 的 GitHub 更新频率、实际支持的算子和模型清单,以及 ONNX Runtime 后续版本升级时是否保持二进制兼容。
  • 来源:Qualcomm Developer Blog

Google LiteRT-LM 把端侧 GenAI 打包成跨平台运行时

  • 事实:Google Developers Blog 于 2026 年 5 月 19 日介绍 LiteRT-LM,称其基于 LiteRT 部署 Gemma 4,覆盖 Android、iOS 和 Web;Google 披露 Gemma 4 E2B 在未启用 MTP 时,可在 Android GPU 后端达到 52 tokens/s、iOS Metal 达到 56 tokens/s、WebGPU 在 MacBook Pro 上最高 76 tokens/s,并称 MTP 可带来最高 2.2 倍加速。
  • 我的判断:LiteRT-LM 的价值不只是速度数字,而是把模型、会话管理、MTP、XNNPACK/MLDrift 内核和 CPU/GPU/NPU 后端一起包装成应用开发者可以直接使用的层。Google 正在把 TensorFlow Lite 的传统移动推理资产迁移到生成式 AI 时代。
  • 产业影响:手机、可穿戴、浏览器和 AI PC 端的模型部署会更依赖系统级运行时,而不是每个应用各自带一套推理引擎。芯片厂商如果不能进入这类主流运行时的后端路径,硬件峰值性能就很难转化为开发者默认选择。
  • 后续观察:关注 LiteRT-LM 是否开放更多 Gemma 4 以外模型、Android NPU 后端的设备覆盖,以及 MTP 在低内存设备上的实际收益和失败回退机制。
  • 来源:Google Developers Blog

ExecuTorch v1.2.0 把嵌入式、语音和硬件后端继续前移

  • 事实:ExecuTorch v1.2.0 于 2026 年 4 月 1 日发布,版本说明称其对齐 PyTorch 2.11,并新增 Voxtral Realtime、Qwen3.5、Parakeet、Silero VAD 等模型支持;Cortex-M 被提升为一等嵌入式目标,Qualcomm QNN 后端加入硬件感知量化、CDSP Direct Mode、SLC allocator 和 attention sink,Metal 后端加入 4-bit 量化推理,Vulkan 后端强化 int8 量化算子。
  • 我的判断:ExecuTorch 不是在做一个“移动版 PyTorch”,而是在把 PyTorch 生态的模型导出、量化、后端分派和运行时裁剪做成端侧统一入口。它越成熟,端侧芯片越需要证明自己能被 PyTorch 工作流顺畅调用,而不是只提供封闭 SDK。
  • 产业影响:对 Arm MCU、Qualcomm NPU、Apple Metal、Vulkan GPU 和 NXP MCU 这类异构平台来说,ExecuTorch 会提高开发者对“同一模型资产跨设备迁移”的预期。国内端侧芯片厂商如果只靠私有转换工具,后续会在开发者体验和生态模型适配上承压。
  • 后续观察:关注 Qwen3.5、Voxtral Realtime 等模型在真实手机、开发板和 MCU-class 设备上的复现案例,以及各后端 partition 失败时的诊断工具是否足够可用。
  • 来源:ExecuTorch GitHub Release

OpenVINO 2026.1.0 预览 llama.cpp 后端

  • 事实:OpenVINO 2026.1.0 于 2026 年 4 月 7 日发布,新增 Qwen3-VL 在 CPU/GPU 上的支持、GPT-OSS 120B 在 CPU 上的支持,并预览 OpenVINO backend for llama.cpp,可在 Intel CPU、GPU 和 NPU 上优化 GGUF 模型推理;版本说明还提到 OpenVINO GenAI 支持 Qwen3-VL/VL 模型动态 LoRA。
  • 我的判断:Intel 的关键动作不是另做一个 LLM runtime,而是借 llama.cpp 的 GGUF 生态把 OpenVINO 后端插入开发者已经使用的本地模型路径。对 AI PC 和边缘盒子而言,能否接住现有 GGUF 模型资产,可能比要求开发者重新转换模型更有效。
  • 产业影响:如果 OpenVINO backend for llama.cpp 稳定,Intel 平台在企业本地 Agent、AI PC、工业边缘盒子中的部署摩擦会下降。它也会倒逼其他端侧平台支持 GGUF、ONNX、LiteRT、PTE 等多格式入口,而不能只押单一模型格式。
  • 后续观察:关注 llama.cpp 后端从 preview 到稳定版的时间、Intel NPU 实际支持的模型范围,以及动态 LoRA 是否进入可复现的端侧多租户或个性化案例。
  • 来源:OpenVINO GitHub Release

Isaac ROS 4.4.0 把机器人部署从感知包扩展到 Physical AI 工作流

  • 事实:NVIDIA Isaac ROS 4.4.0 于 2026 年 4 月 30 日发布,官方说明称该版本将 isaac_manipulator 重命名为 isaac_ros_manipulation,更新 isaac_ros_cumotion 规划后端,新增 XR 头显遥操作包、新的 isaac_ros_physical_ai 仓库和机器人支持包;同时列出 Thor 上部分操作工作流在 nvblox 与 GXF 感知节点组合时可能 segfault 等限制。
  • 我的判断:这说明机器人软件栈已经不只是 ROS 包加速,而是在向“感知、规划、遥操作、物理 AI 应用和机器人硬件支持包”的组合交付演进。NVIDIA 同时公开限制项,反而说明真实机器人部署的难点正在从模型精度转向组件兼容、图调度和故障定位。
  • 产业影响:Jetson Thor/Isaac 的竞争优势会越来越依赖这种端到端工作流,而不是单独的 GPU 性能。国产机器人主控和 SoC 平台若要进入中高端本体,需要拿出可替代的 ROS 2 加速包、相机/传感器支持、规划库和问题追踪机制。
  • 后续观察:关注 isaac_ros_physical_ai 的样例是否持续增加,Thor 限制项是否在后续补丁中关闭,以及机器人厂商是否开始引用 4.4.0 工作流做量产验证。
  • 来源:NVIDIA Isaac ROS Release Notes

RKNN Model Zoo 继续补 Rockchip 端侧部署样例层

  • 事实:瑞芯微相关的 airockchip/rknn_model_zoo 于 2026 年 4 月 9 日发布 v2.3.2;此前 v2.0.0 于 2026 年 3 月 25 日标注支持 RK3576 和 RKNPU1,并称为 RK3576 的全部 demo 增加支持。项目说明显示 Model Zoo 基于 RKNPU SDK 工具链,覆盖模型导出、RKNN 转换、Python API 和 C API 推理,支持 RK3562、RK3566、RK3568、RK3576、RK3588、RV1126B 等平台。
  • 我的判断:RKNN Model Zoo 的价值被低估了。对 Rockchip 客户来说,模型样例不是教学材料,而是判断“这个 NPU 能否被工程团队调通”的第一道采购过滤器;尤其在 RK3576 扩展到车载 AI BOX、边缘盒子和低成本视觉设备后,demo 覆盖会直接影响 PoC 成本。
  • 产业影响:瑞芯微的端侧 AI 竞争力会越来越取决于 RKNN 转换成功率、量化精度、C API 稳定性和 Model Zoo 更新速度。若 RKNN 能持续跟上 YOLO、OCR、VLM、小语言模型和多模态前处理,Rockchip 平台会在中低成本边缘设备中继续放大装机面。
  • 后续观察:关注 rknn_model_zoo 是否补充更多 VLM/LLM、多模态和机器人感知样例,RK3576 与 RK3588 的模型差异是否透明,以及 issue 中的算子缺口是否快速关闭。
  • 来源:RKNN Model Zoo v2.3.2RKNN Model Zoo v2.0.0

MediaTek 把 NeuroPilot SDK 放进智能座舱 Agent 部署链路

  • 事实:MediaTek 于 2026 年 4 月 24 日在北京车展展示主动智能座舱方案,称 Dimensity Auto Cockpit Platform C-X1 集成 NVIDIA Blackwell GPU 架构和 CUDA 生态;平台配备 Dimensity AI development kit,即 NeuroPilot SDK,提供优化技术、可视化开发环境和 Model Hub,并提供边缘侧 Orchestrator 以及 MCP、SKILL 等标准应用协议。
  • 我的判断:联发科这次展示的重点不是单颗座舱芯片,而是把座舱 Agent 需要的模型部署、边云协同、应用协议和生态模型适配放进平台叙事。车载端侧 AI 会先在“封闭但高价值”的座舱环境里验证,因为车厂更愿意为稳定 SDK、可控权限和长期 OTA 付费。
  • 产业影响:座舱 SoC 的软件栈正在从语音助手 SDK 升级为多模态 Agent 运行环境。对高通、地平线、瑞芯微和爱芯元智来说,后续竞争会更集中在 Model Hub、车规 OTA、云端应用接入和本地模型调度,而不是只比 NPU TOPS。
  • 后续观察:关注 C-X1 相关方案是否披露量产车型,NeuroPilot SDK 是否开放更细的模型清单和部署工具,以及 MCP/SKILL 在座舱中是否形成真实第三方应用生态。
  • 来源:MediaTek

Qualcomm Dragonwing 生态把模型部署延伸到设备生命周期

  • 事实:Qualcomm 于 2026 年 5 月 8 日介绍 Dragonwing 开发者生态,称其把 Dragonwing 处理器、Qualcomm AI Hub、Edge Impulse、Arduino App Lab 和 Foundries.io 串联为从原型到工业规模部署的路径;其中 Edge Impulse 支持传感器、视觉、音频和时序数据建模,Arduino App Lab 可部署 Edge Impulse 容器、完整 AI 推理流水线和优化后的 CPU/GPU/NPU 加速应用,Foundries.io 提供 Yocto Linux、SBOM、CI/CD、设备管理、OTA 回滚和版本控制。
  • 我的判断:这比单独发布开发板更接近端侧 AI 的量产现实:模型部署不是把一个 .onnx 文件跑起来,而是要把数据、模型、容器、系统镜像、安全更新和设备 fleet 管理纳入同一链路。Qualcomm 正在把“开发者入口”推进到“生产运维入口”。
  • 产业影响:未来端侧 AI 平台的竞争会部分像云原生基础设施:谁能把模型应用容器、系统更新、设备身份、SBOM 和回滚做成默认能力,谁就更容易进入工业、机器人和零售边缘设备。国内 SoC 厂商若只给 SDK 和 demo,可能会在客户规模化部署阶段被系统集成商替代。
  • 后续观察:关注 Dragonwing 生态是否出现真实批量部署案例,Foundries.io OTA 链路是否被 OEM/ODM 采用,以及 AI Hub 到 Edge Impulse 再到 App Lab 的模型精度和性能是否可端到端追踪。
  • 来源:Qualcomm Developer Blog

反共识观察

第一,端侧 AI 软件栈的开放化不会必然让硬件“去差异化”。相反,ONNX Runtime Plugin EP、LiteRT 后端、ExecuTorch delegate、OpenVINO backend 和 RKNN Model Zoo 都在说明,开源框架只是把竞争挪到了更可验证的位置:谁的插件更稳定、谁的算子覆盖更快、谁的量化精度损失更小、谁能在系统升级后不破坏应用,谁就更有机会成为默认平台。

第二,端侧模型部署的采购指标会从“跑通 demo”转向“软件资产可维护”。一个模型在实验室能跑,不等于它能在 10 万台设备上长期运行;真正决定量产的是插件 ABI、模型格式、后端回退、日志诊断、OTA 回滚、SBOM 和安全补丁。这个判断可以被验证:如果未来 1 到 2 个季度客户案例开始强调 EP、delegate、Model Hub、OTA 和 fleet 管理,而不是只展示 tokens/s 或 TOPS,那么端侧 AI 的价值链会继续从芯片参数向软件契约迁移。

观察清单

  • Qualcomm Plugin EP 是否保持独立月度更新,并披露更完整的算子、模型和平台兼容矩阵。
  • LiteRT-LM 是否扩展到更多 Gemma 4 以外模型,Android NPU 后端是否从少数设备走向更广泛覆盖。
  • ExecuTorch 的 QNN、Arm Ethos-U、Metal、Vulkan 后端是否出现更多可复现 benchmark 和失败诊断工具。
  • OpenVINO backend for llama.cpp 是否从 preview 进入稳定发布,并明确 Intel NPU 对 GGUF 模型的支持边界。
  • RKNN Model Zoo 是否补齐多模态、VLM、LLM 和机器人感知样例,尤其是 RK3576/RK3588 的差异化部署路径。
  • MediaTek NeuroPilot SDK 和 Dragonwing 生态是否披露量产客户或第三方应用生态,而不只是展会级集成。

评论