端侧AI部署的控制权正在转向插件化运行时

核心观点

端侧 AI 软件栈正在从“谁有自己的 SDK”转向“谁能成为主流运行时的可插拔后端”。Qualcomm 把 QNN 做成 ONNX Runtime Plugin EP，Intel 让 OpenVINO 接入 llama.cpp，vLLM 和 SGLang 的近期补丁都在修复分布式、KV cache、CUDA 版本和模型初始化这类生产问题，说明部署控制权正从单一芯片厂商工具链转移到运行时生态。一个可辩论的判断是：未来 1 到 2 个季度，端侧平台的商业可信度会越来越取决于它是否能进入 ONNX Runtime、llama.cpp、OpenVINO、vLLM、SGLang、ExecuTorch、MNN、ncnn 等公共路径，而不是仅靠私有 demo 证明“能跑”。后续验证指标是插件后端更新频率、模型转换失败率、算子 fallback 比例、真实设备 profiling、冷启动和长上下文稳定性。

本期主线

端侧模型部署的主线正在变得更清晰：模型越来越多，硬件越来越碎，客户反而更需要少数可治理的运行时入口。过去芯片厂商常用私有 SDK、私有模型格式和示例工程完成 PoC；现在开发者更希望模型能沿着 ONNX、GGUF、PyTorch export、OpenAI-compatible server、WebGPU 或浏览器 API 进入设备，再由后端插件决定落到 CPU、GPU、NPU、DSP、Vulkan、QNN、OpenVINO、CUDA 或 WebGPU。

这对 NVIDIA Jetson、Qualcomm、Intel、联发科、瑞芯微、全志、星宸科技、地平线、黑芝麻、爱芯元智等端侧平台都有直接影响。硬件厂商仍然需要峰值算力和功耗优势，但更难被替代的是软件栈的“可进入性”：是否能被主流运行时发现、选择、诊断、升级和回退。反过来，如果一个端侧平台只能通过封闭转换器交付，客户在量产阶段遇到算子缺口、版本锁死、精度漂移和性能回归时，就会把它视为集成风险，而不是成本优势。

重点进展

Qualcomm 把 QNN 做成 ONNX Runtime Plugin EP，端侧后端开始独立升级

事实：Qualcomm 于 2026 年 5 月 20 日宣布发布首个公开可用的 ONNX Runtime Plugin Execution Provider，由 Qualcomm AI Stack 驱动，用于在 Snapdragon 和 Qualcomm 平台上加速 AI 推理。官方称 Plugin EP 让 ONNX Runtime 与硬件特定组件解耦，支持移动、PC、IoT、机器人等平台，并可让后端按独立节奏更新。
我的判断：这比单纯增加 QNN 模型清单更重要。Qualcomm 不是要求所有开发者先进入 Qualcomm 私有工具链，而是把 NPU/DSP/GPU 能力挂到 ONNX Runtime 这个公共入口下，降低了企业和 ISV 在 Windows、Android、边缘设备之间迁移模型的心理成本。
产业影响：高通端侧平台的竞争力会更多体现为 ONNX Runtime 生态中的可用后端，而不只是 Hexagon NPU 参数。国内 SoC 厂商若长期停留在“下载 SDK、手动转换、板端跑样例”的模式，可能在开发者入口上被 QNN EP、OpenVINO EP、CoreML EP 这类插件路径挤压。
后续观察：关注 QNN Plugin EP 是否覆盖更多 LLM/VLM、语音和机器人模型，是否公开 profiling 与 fallback 信息，以及它与 Windows ML、Android 应用和机器人参考设计的版本同步速度。
来源：Qualcomm Developer Blog

ONNX Runtime 1.26.0 强化 Plugin EP，运行时本身也在去耦合

事实：ONNX Runtime v1.26.0 于 2026 年 5 月 8 日发布。官方 release notes 显示，该版本新增 .ort 模型加载的可选 memory mapping、CPU EP 的 RISC-V Vector 支持、OpenVINO EP 升级、WebGPU GridSample 与 Split-K 改进；CUDA plugin EP 增加 graph support、profiling API 和资源计量，并提示 1.27.0 将移除 CUDA 12 支持。
我的判断：ONNX Runtime 正在把“硬件适配”从核心框架里拆成更清晰的插件边界。这个变化短期会带来版本迁移压力，但长期会提高端侧部署的可诊断性：客户能更明确地区分问题来自模型、runtime、EP、驱动还是硬件。
产业影响：瑞芯微 RKNN、全志 Tina、星宸 SDK、地平线和黑芝麻工具链若想进入更大的模型部署生态，需要考虑是否提供类似 EP/delegate 的公共接口。否则即使芯片性价比高，也会被客户归类为“集成成本高、排障边界不清”的平台。
后续观察：关注 CUDA plugin EP 独立化后是否降低部署包耦合，RISC-V Vector CPU EP 是否出现可复现性能数据，以及 OpenVINO、QNN、CoreML、WebGPU 等 EP 是否继续缩小算子缺口。
来源：ONNX Runtime v1.26.0 Release

vLLM 0.22.1 的补丁重点不是新模型，而是部署故障面

事实：vLLM v0.22.1 于 2026 年 6 月 5 日发布，是 v0.22.0 之上的补丁版本。官方 release notes 称该版本新增 JetBrains Mellum v2 支持，并修复多节点 Ray data-parallel serving 在 num_api_servers > 1 时的确定性挂起、CUDA 13 镜像中 NIXL KV-connector wheel 导致的 libcudart.so.12 导入问题、DeepSeek-V4 初始化和若干模型加载回归；同时为 AMD Zen CPU 的 W8A8/W4A16 量化线性推理接入 zentorch kernel。
我的判断：vLLM 的边缘意义不在它能否跑在最小设备上，而在它定义了本地工作站、边缘服务器和机器人机房的推理服务基线。补丁集中修挂起、CUDA 版本、KV connector、模型初始化和 CPU 量化路径，说明生产部署的瓶颈往往是“长时间稳定运行”，而不是发布页上的模型数量。
产业影响：AI PC、Jetson 工作站、小型机柜和工业边缘服务器会越来越像小型推理集群。端侧厂商如果只提供裸推理 API，而缺少服务化、并发、KV cache、观测和故障恢复能力，就很难承接 Agent 或多机器人系统的持续负载。
后续观察：关注 vLLM 的 CPU、XPU、ROCm 和 aarch64 wheel 是否获得更多真实部署，Model Runner V2 和 KV offloading 是否进入默认生产路径，以及边缘服务器客户是否把 vLLM 作为本地 Agent 服务层。
来源：vLLM v0.22.1 Release

SGLang 0.5.12.post1 显示高性能推理栈的短板在正确性和状态管理

事实：SGLang v0.5.12.post1 于 2026 年 5 月 26 日发布，官方称这是 v0.5.12 之上的稳定性补丁，主要为 DeepSeek V4 cherry-pick 12 个修复。release notes 列出的问题包括 DSV4-Pro 在 B200/B300 单 token decode 时输出乱码、EAGLE/MTP disaggregation decode 约 2000 个请求后因 SWA allocator assertion 崩溃、HiSparse 压缩路径 GSM8K 准确率从 0.825 恢复到 0.960、PD disaggregation 支持 pipeline parallelism 大于 1，以及 CUDA graph capture 中的非法内存访问。
我的判断：这类补丁比 benchmark 亮点更能说明推理栈进入生产化阶段。端侧和边缘部署最怕的不是慢 10%，而是长时间运行后状态污染、KV 页复用错误、量化分支准确率掉线、解码乱码和 CUDA graph 捕获崩溃。
产业影响：机器人、车载座舱、工业视觉和企业 Agent 的本地部署都需要持续运行、可回放、可定位的推理服务。国内端侧 SDK 如果不把错误输出、长请求、KV cache 状态、pipeline parallel 和量化准确率纳入回归测试，就很难让客户放心把模型留在设备侧。
后续观察：关注 SGLang 后续版本是否把 DeepSeek V4、disaggregation、HiCache、HiSparse 和 CUDA graph 修复沉淀为默认测试集，以及同类问题是否在 TensorRT-LLM、vLLM、llama.cpp 等栈中同步暴露。
来源：SGLang v0.5.12.post1 Release

llama.cpp 的 OpenVINO 后端让 GGUF 成为 Intel 端侧入口

事实：llama.cpp 官方文档已提供 OpenVINO 后端说明，称该后端面向 Intel CPU、GPU 和 NPU，验证设备包括 Core Ultra Series 1 和 Series 2 AI PC；文档给出 Linux 与 Windows 构建方式、GGML_OPENVINO_DEVICE、stateful execution、GPU/NPU benchmark 等用法，并列出 Llama 3.2、Phi-3、Qwen2.5、Mistral 等 GGUF 模型验证路径。
我的判断：这说明 Intel 正在接受 GGUF/llama.cpp 作为事实开发者入口，而不是只把 OpenVINO 放在自有模型转换链路里。对开发者来说，能继续使用 GGUF 资产和 llama.cpp 工具，再把后端切到 OpenVINO，比重新学习一个完整私有栈更容易。
产业影响：这会强化“模型格式 + 公共运行时 + 硬件后端”的组合逻辑。瑞芯微 RKNN、星宸、全志、爱芯元智等平台若能被 GGUF、ONNX、ExecuTorch、MNN、ncnn 等入口自然调用，开发者采用门槛会显著降低；反之，封闭格式越强，生态摩擦越大。
后续观察：关注 OpenVINO 后端在 Intel NPU 上的模型覆盖和性能数据，是否支持更新的 Qwen/Gemma/多模态模型，以及 llama.cpp 官方预编译包是否稳定包含 OpenVINO 后端。
来源：llama.cpp OpenVINO backend documentation

LlamaWeb 把 llama.cpp 推到浏览器，端侧部署边界继续外扩

事实：Microsoft Research 页面和 arXiv 论文显示，LlamaWeb 是一个面向 llama.cpp 的 WebGPU 后端，目标是在浏览器中实现内存高效、跨设备可移植、多精度的 LLM 推理。论文于 2026 年 5 月发布，强调 WebGPU 可让模型在用户设备本地运行，并支持广泛的模型权重格式。
我的判断：浏览器端 LLM 短期不会替代原生 NPU SDK，但它会改变端侧部署的分发逻辑。只要浏览器能承接小模型、隐私敏感推理、离线辅助和轻量 Agent，开发者就会更关注 WebGPU 的可用性、模型加载体积、缓存策略和跨厂商一致性。
产业影响：端侧 AI 不再只发生在手机 App、Linux 盒子或机器人控制器里，也会发生在浏览器、WebView、企业门户和本地工作台中。对 Intel、Qualcomm、Apple、NVIDIA、AMD、联发科和国内端侧厂商来说，浏览器/WebGPU 路径会成为绕过私有 SDK 的另一个压力测试。
后续观察：关注 LlamaWeb 或同类 WebGPU 后端是否进入主流浏览器 demo、企业内网页应用和离线文档场景，重点看首 token 延迟、模型缓存、量化格式兼容和移动 GPU 稳定性。
来源：Microsoft Research

AIPC 论文把 Qualcomm 部署流程描述成可自动化任务链

事实：2026 年 4 月发布的 AIPC 论文以 Qualcomm AI Runtime 为主要场景，讨论用 Agent 自动化端侧模型部署流程。论文将边缘 AI 部署拆成模型转换、算子兼容、量化校准、runtime 集成和准确率验证等阶段，并以视觉、多模态和语音模型作为代表任务。
我的判断：这篇论文的价值不在“Agent 能替工程师做多少事”，而在它把端侧部署的真实成本拆开了：转换、兼容、量化、集成、验证缺一不可。只要这些环节还依赖工程师手工试错，端侧 AI 就很难从 demo 规模进入多机型量产。
产业影响：Qualcomm、Intel、NVIDIA 和国内 SoC 厂商最终都需要把部署流程做成可脚本化、可回归、可审计的流水线。瑞芯微、全志、星宸、地平线、黑芝麻等平台如果能公开更多转换日志、算子覆盖、量化误差和板端验证工具，会比单纯发布模型列表更有说服力。
后续观察：关注 Qualcomm AI Hub/QAIRT、ONNX Runtime QNN EP、MNN/ncnn、RKNN、OpenVINO 是否把自动化部署检查做进 CI 或云端验证服务，以及客户是否开始要求“模型 + runtime + 设备 + 量化参数”作为一个可版本化交付物。
来源：AIPC: Agent-Based Automation for AI Model Deployment with Qualcomm AI Runtime

反共识观察

第一，端侧 AI 的核心入口可能不会由芯片厂商自有 SDK 独占，而会被“公共运行时 + 插件后端”重新分配。这个判断看起来反常识，因为端侧硬件差异大，厂商私有优化不可避免；但 Qualcomm QNN Plugin EP、ONNX Runtime Plugin EP、llama.cpp OpenVINO 后端、WebGPU 后端和 vLLM/SGLang 的服务化补丁都说明，客户更愿意把硬件差异藏在可替换后端里。验证方式很直接：看未来 1 到 2 个季度，芯片厂商发布材料里是否更多出现 EP、delegate、backend、GGUF、ONNX、WebGPU、OpenAI-compatible server、profiling 和 fallback，而不是只展示私有 SDK 截图。

第二，端侧部署的真正壁垒可能从“模型压缩能力”转向“状态和错误管理”。SGLang 修的是乱码、KV 页、CUDA graph、准确率回退和 disaggregation 崩溃；vLLM 修的是 Ray 多节点挂起、CUDA 13 wheel、KV connector 和模型初始化；ONNX Runtime 和 Qualcomm 强调的是插件边界、profiling 和独立升级。这说明量产客户会越来越重视长期运行、可观测、可回滚、可复现，而不仅是某个模型在展台上跑通。验证指标是：未来 release notes 中稳定性、memory mapping、KV cache、profiling、资源计量和安全修复是否继续占据核心位置。

观察清单

QNN Plugin EP 是否进入更多 Windows、Android、IoT 和机器人公开样例，是否披露 fallback、profiling 和模型覆盖边界。
ONNX Runtime 1.27.0 移除 CUDA 12 支持后，Plugin EP 生态是否降低还是增加端侧部署摩擦。
vLLM 的 CPU、XPU、ROCm、aarch64 和 KV offloading 路径是否从服务器扩展到本地 Agent、AI PC 和边缘服务器。
SGLang 的 DeepSeek V4、disaggregation、HiCache、HiSparse 和 CUDA graph 修复是否转化为默认回归测试。
llama.cpp OpenVINO 后端是否稳定覆盖 Intel NPU，并跟上 Qwen、Gemma、VLM 等新模型结构。
WebGPU/浏览器端 LLM 是否在企业内网页应用、离线文档、轻量 Agent 和隐私推理中出现真实采用。
瑞芯微 RKNN、全志 Tina、星宸 SDK、地平线、黑芝麻、爱芯元智等国内端侧软件栈是否公开更多 EP/delegate、ONNX/GGUF 接入、算子覆盖、量化误差和板端 CI 工具。