端侧AI部署的控制权正在转向插件化运行时

核心观点

端侧 AI 软件栈正在从“谁有自己的 SDK”转向“谁能成为主流运行时的可插拔后端”。Qualcomm 把 QNN 做成 ONNX Runtime Plugin EP,Intel 让 OpenVINO 接入 llama.cpp,vLLM 和 SGLang 的近期补丁都在修复分布式、KV cache、CUDA 版本和模型初始化这类生产问题,说明部署控制权正从单一芯片厂商工具链转移到运行时生态。一个可辩论的判断是:未来 1 到 2 个季度,端侧平台的商业可信度会越来越取决于它是否能进入 ONNX Runtime、llama.cpp、OpenVINO、vLLM、SGLang、ExecuTorch、MNN、ncnn 等公共路径,而不是仅靠私有 demo 证明“能跑”。后续验证指标是插件后端更新频率、模型转换失败率、算子 fallback 比例、真实设备 profiling、冷启动和长上下文稳定性。

本期主线

端侧模型部署的主线正在变得更清晰:模型越来越多,硬件越来越碎,客户反而更需要少数可治理的运行时入口。过去芯片厂商常用私有 SDK、私有模型格式和示例工程完成 PoC;现在开发者更希望模型能沿着 ONNX、GGUF、PyTorch export、OpenAI-compatible server、WebGPU 或浏览器 API 进入设备,再由后端插件决定落到 CPU、GPU、NPU、DSP、Vulkan、QNN、OpenVINO、CUDA 或 WebGPU。

这对 NVIDIA Jetson、Qualcomm、Intel、联发科、瑞芯微、全志、星宸科技、地平线、黑芝麻、爱芯元智等端侧平台都有直接影响。硬件厂商仍然需要峰值算力和功耗优势,但更难被替代的是软件栈的“可进入性”:是否能被主流运行时发现、选择、诊断、升级和回退。反过来,如果一个端侧平台只能通过封闭转换器交付,客户在量产阶段遇到算子缺口、版本锁死、精度漂移和性能回归时,就会把它视为集成风险,而不是成本优势。

重点进展

Qualcomm 把 QNN 做成 ONNX Runtime Plugin EP,端侧后端开始独立升级

  • 事实:Qualcomm 于 2026 年 5 月 20 日宣布发布首个公开可用的 ONNX Runtime Plugin Execution Provider,由 Qualcomm AI Stack 驱动,用于在 Snapdragon 和 Qualcomm 平台上加速 AI 推理。官方称 Plugin EP 让 ONNX Runtime 与硬件特定组件解耦,支持移动、PC、IoT、机器人等平台,并可让后端按独立节奏更新。
  • 我的判断:这比单纯增加 QNN 模型清单更重要。Qualcomm 不是要求所有开发者先进入 Qualcomm 私有工具链,而是把 NPU/DSP/GPU 能力挂到 ONNX Runtime 这个公共入口下,降低了企业和 ISV 在 Windows、Android、边缘设备之间迁移模型的心理成本。
  • 产业影响:高通端侧平台的竞争力会更多体现为 ONNX Runtime 生态中的可用后端,而不只是 Hexagon NPU 参数。国内 SoC 厂商若长期停留在“下载 SDK、手动转换、板端跑样例”的模式,可能在开发者入口上被 QNN EP、OpenVINO EP、CoreML EP 这类插件路径挤压。
  • 后续观察:关注 QNN Plugin EP 是否覆盖更多 LLM/VLM、语音和机器人模型,是否公开 profiling 与 fallback 信息,以及它与 Windows ML、Android 应用和机器人参考设计的版本同步速度。
  • 来源:Qualcomm Developer Blog

ONNX Runtime 1.26.0 强化 Plugin EP,运行时本身也在去耦合

  • 事实:ONNX Runtime v1.26.0 于 2026 年 5 月 8 日发布。官方 release notes 显示,该版本新增 .ort 模型加载的可选 memory mapping、CPU EP 的 RISC-V Vector 支持、OpenVINO EP 升级、WebGPU GridSample 与 Split-K 改进;CUDA plugin EP 增加 graph support、profiling API 和资源计量,并提示 1.27.0 将移除 CUDA 12 支持。
  • 我的判断:ONNX Runtime 正在把“硬件适配”从核心框架里拆成更清晰的插件边界。这个变化短期会带来版本迁移压力,但长期会提高端侧部署的可诊断性:客户能更明确地区分问题来自模型、runtime、EP、驱动还是硬件。
  • 产业影响:瑞芯微 RKNN、全志 Tina、星宸 SDK、地平线和黑芝麻工具链若想进入更大的模型部署生态,需要考虑是否提供类似 EP/delegate 的公共接口。否则即使芯片性价比高,也会被客户归类为“集成成本高、排障边界不清”的平台。
  • 后续观察:关注 CUDA plugin EP 独立化后是否降低部署包耦合,RISC-V Vector CPU EP 是否出现可复现性能数据,以及 OpenVINO、QNN、CoreML、WebGPU 等 EP 是否继续缩小算子缺口。
  • 来源:ONNX Runtime v1.26.0 Release

vLLM 0.22.1 的补丁重点不是新模型,而是部署故障面

  • 事实:vLLM v0.22.1 于 2026 年 6 月 5 日发布,是 v0.22.0 之上的补丁版本。官方 release notes 称该版本新增 JetBrains Mellum v2 支持,并修复多节点 Ray data-parallel serving 在 num_api_servers > 1 时的确定性挂起、CUDA 13 镜像中 NIXL KV-connector wheel 导致的 libcudart.so.12 导入问题、DeepSeek-V4 初始化和若干模型加载回归;同时为 AMD Zen CPU 的 W8A8/W4A16 量化线性推理接入 zentorch kernel。
  • 我的判断:vLLM 的边缘意义不在它能否跑在最小设备上,而在它定义了本地工作站、边缘服务器和机器人机房的推理服务基线。补丁集中修挂起、CUDA 版本、KV connector、模型初始化和 CPU 量化路径,说明生产部署的瓶颈往往是“长时间稳定运行”,而不是发布页上的模型数量。
  • 产业影响:AI PC、Jetson 工作站、小型机柜和工业边缘服务器会越来越像小型推理集群。端侧厂商如果只提供裸推理 API,而缺少服务化、并发、KV cache、观测和故障恢复能力,就很难承接 Agent 或多机器人系统的持续负载。
  • 后续观察:关注 vLLM 的 CPU、XPU、ROCm 和 aarch64 wheel 是否获得更多真实部署,Model Runner V2 和 KV offloading 是否进入默认生产路径,以及边缘服务器客户是否把 vLLM 作为本地 Agent 服务层。
  • 来源:vLLM v0.22.1 Release

SGLang 0.5.12.post1 显示高性能推理栈的短板在正确性和状态管理

  • 事实:SGLang v0.5.12.post1 于 2026 年 5 月 26 日发布,官方称这是 v0.5.12 之上的稳定性补丁,主要为 DeepSeek V4 cherry-pick 12 个修复。release notes 列出的问题包括 DSV4-Pro 在 B200/B300 单 token decode 时输出乱码、EAGLE/MTP disaggregation decode 约 2000 个请求后因 SWA allocator assertion 崩溃、HiSparse 压缩路径 GSM8K 准确率从 0.825 恢复到 0.960、PD disaggregation 支持 pipeline parallelism 大于 1,以及 CUDA graph capture 中的非法内存访问。
  • 我的判断:这类补丁比 benchmark 亮点更能说明推理栈进入生产化阶段。端侧和边缘部署最怕的不是慢 10%,而是长时间运行后状态污染、KV 页复用错误、量化分支准确率掉线、解码乱码和 CUDA graph 捕获崩溃。
  • 产业影响:机器人、车载座舱、工业视觉和企业 Agent 的本地部署都需要持续运行、可回放、可定位的推理服务。国内端侧 SDK 如果不把错误输出、长请求、KV cache 状态、pipeline parallel 和量化准确率纳入回归测试,就很难让客户放心把模型留在设备侧。
  • 后续观察:关注 SGLang 后续版本是否把 DeepSeek V4、disaggregation、HiCache、HiSparse 和 CUDA graph 修复沉淀为默认测试集,以及同类问题是否在 TensorRT-LLM、vLLM、llama.cpp 等栈中同步暴露。
  • 来源:SGLang v0.5.12.post1 Release

llama.cpp 的 OpenVINO 后端让 GGUF 成为 Intel 端侧入口

  • 事实:llama.cpp 官方文档已提供 OpenVINO 后端说明,称该后端面向 Intel CPU、GPU 和 NPU,验证设备包括 Core Ultra Series 1 和 Series 2 AI PC;文档给出 Linux 与 Windows 构建方式、GGML_OPENVINO_DEVICE、stateful execution、GPU/NPU benchmark 等用法,并列出 Llama 3.2、Phi-3、Qwen2.5、Mistral 等 GGUF 模型验证路径。
  • 我的判断:这说明 Intel 正在接受 GGUF/llama.cpp 作为事实开发者入口,而不是只把 OpenVINO 放在自有模型转换链路里。对开发者来说,能继续使用 GGUF 资产和 llama.cpp 工具,再把后端切到 OpenVINO,比重新学习一个完整私有栈更容易。
  • 产业影响:这会强化“模型格式 + 公共运行时 + 硬件后端”的组合逻辑。瑞芯微 RKNN、星宸、全志、爱芯元智等平台若能被 GGUF、ONNX、ExecuTorch、MNN、ncnn 等入口自然调用,开发者采用门槛会显著降低;反之,封闭格式越强,生态摩擦越大。
  • 后续观察:关注 OpenVINO 后端在 Intel NPU 上的模型覆盖和性能数据,是否支持更新的 Qwen/Gemma/多模态模型,以及 llama.cpp 官方预编译包是否稳定包含 OpenVINO 后端。
  • 来源:llama.cpp OpenVINO backend documentation

LlamaWeb 把 llama.cpp 推到浏览器,端侧部署边界继续外扩

  • 事实:Microsoft Research 页面和 arXiv 论文显示,LlamaWeb 是一个面向 llama.cpp 的 WebGPU 后端,目标是在浏览器中实现内存高效、跨设备可移植、多精度的 LLM 推理。论文于 2026 年 5 月发布,强调 WebGPU 可让模型在用户设备本地运行,并支持广泛的模型权重格式。
  • 我的判断:浏览器端 LLM 短期不会替代原生 NPU SDK,但它会改变端侧部署的分发逻辑。只要浏览器能承接小模型、隐私敏感推理、离线辅助和轻量 Agent,开发者就会更关注 WebGPU 的可用性、模型加载体积、缓存策略和跨厂商一致性。
  • 产业影响:端侧 AI 不再只发生在手机 App、Linux 盒子或机器人控制器里,也会发生在浏览器、WebView、企业门户和本地工作台中。对 Intel、Qualcomm、Apple、NVIDIA、AMD、联发科和国内端侧厂商来说,浏览器/WebGPU 路径会成为绕过私有 SDK 的另一个压力测试。
  • 后续观察:关注 LlamaWeb 或同类 WebGPU 后端是否进入主流浏览器 demo、企业内网页应用和离线文档场景,重点看首 token 延迟、模型缓存、量化格式兼容和移动 GPU 稳定性。
  • 来源:Microsoft Research

AIPC 论文把 Qualcomm 部署流程描述成可自动化任务链

  • 事实:2026 年 4 月发布的 AIPC 论文以 Qualcomm AI Runtime 为主要场景,讨论用 Agent 自动化端侧模型部署流程。论文将边缘 AI 部署拆成模型转换、算子兼容、量化校准、runtime 集成和准确率验证等阶段,并以视觉、多模态和语音模型作为代表任务。
  • 我的判断:这篇论文的价值不在“Agent 能替工程师做多少事”,而在它把端侧部署的真实成本拆开了:转换、兼容、量化、集成、验证缺一不可。只要这些环节还依赖工程师手工试错,端侧 AI 就很难从 demo 规模进入多机型量产。
  • 产业影响:Qualcomm、Intel、NVIDIA 和国内 SoC 厂商最终都需要把部署流程做成可脚本化、可回归、可审计的流水线。瑞芯微、全志、星宸、地平线、黑芝麻等平台如果能公开更多转换日志、算子覆盖、量化误差和板端验证工具,会比单纯发布模型列表更有说服力。
  • 后续观察:关注 Qualcomm AI Hub/QAIRT、ONNX Runtime QNN EP、MNN/ncnn、RKNN、OpenVINO 是否把自动化部署检查做进 CI 或云端验证服务,以及客户是否开始要求“模型 + runtime + 设备 + 量化参数”作为一个可版本化交付物。
  • 来源:AIPC: Agent-Based Automation for AI Model Deployment with Qualcomm AI Runtime

反共识观察

第一,端侧 AI 的核心入口可能不会由芯片厂商自有 SDK 独占,而会被“公共运行时 + 插件后端”重新分配。这个判断看起来反常识,因为端侧硬件差异大,厂商私有优化不可避免;但 Qualcomm QNN Plugin EP、ONNX Runtime Plugin EP、llama.cpp OpenVINO 后端、WebGPU 后端和 vLLM/SGLang 的服务化补丁都说明,客户更愿意把硬件差异藏在可替换后端里。验证方式很直接:看未来 1 到 2 个季度,芯片厂商发布材料里是否更多出现 EP、delegate、backend、GGUF、ONNX、WebGPU、OpenAI-compatible server、profiling 和 fallback,而不是只展示私有 SDK 截图。

第二,端侧部署的真正壁垒可能从“模型压缩能力”转向“状态和错误管理”。SGLang 修的是乱码、KV 页、CUDA graph、准确率回退和 disaggregation 崩溃;vLLM 修的是 Ray 多节点挂起、CUDA 13 wheel、KV connector 和模型初始化;ONNX Runtime 和 Qualcomm 强调的是插件边界、profiling 和独立升级。这说明量产客户会越来越重视长期运行、可观测、可回滚、可复现,而不仅是某个模型在展台上跑通。验证指标是:未来 release notes 中稳定性、memory mapping、KV cache、profiling、资源计量和安全修复是否继续占据核心位置。

观察清单

  • QNN Plugin EP 是否进入更多 Windows、Android、IoT 和机器人公开样例,是否披露 fallback、profiling 和模型覆盖边界。
  • ONNX Runtime 1.27.0 移除 CUDA 12 支持后,Plugin EP 生态是否降低还是增加端侧部署摩擦。
  • vLLM 的 CPU、XPU、ROCm、aarch64 和 KV offloading 路径是否从服务器扩展到本地 Agent、AI PC 和边缘服务器。
  • SGLang 的 DeepSeek V4、disaggregation、HiCache、HiSparse 和 CUDA graph 修复是否转化为默认回归测试。
  • llama.cpp OpenVINO 后端是否稳定覆盖 Intel NPU,并跟上 Qwen、Gemma、VLM 等新模型结构。
  • WebGPU/浏览器端 LLM 是否在企业内网页应用、离线文档、轻量 Agent 和隐私推理中出现真实采用。
  • 瑞芯微 RKNN、全志 Tina、星宸 SDK、地平线、黑芝麻、爱芯元智等国内端侧软件栈是否公开更多 EP/delegate、ONNX/GGUF 接入、算子覆盖、量化误差和板端 CI 工具。

评论