端侧AI部署入口正在从SDK转向可测工作流

核心观点

端侧 AI 软件栈的竞争正在从“谁提供了 SDK”转向“谁把模型转换、量化、真实设备验证、性能剖析、部署回归和版本升级做成可重复工作流”。NVIDIA JetPack 7.2、Qualcomm AI Hub Workbench、ExecuTorch、OpenVINO、Ultralytics RKNN、SGLang 和 llama.cpp 的近期更新都指向同一件事：开发者不再满足于能跑 demo，而是要能在目标硬件上持续测、持续修、持续迁移。一个可辩论判断是，未来 1 到 2 个季度端侧平台的胜负会更多由“可测量部署闭环”决定，而不是由单个 NPU 的峰值 TOPS 决定。另一个反共识判断是，开放运行时和第三方导出工具正在削弱芯片厂商 SDK 的入口垄断，芯片厂商若不把自家工具接入主流工作流，硬件优势会被开发者绕开。

本期主线

本期端侧软件栈的主线，是部署入口正在外移。过去客户先拿芯片 SDK，再摸索模型转换、量化、板端运行和调试；现在更常见的路径是先在 PyTorch、Ultralytics、llama.cpp、OpenVINO、ExecuTorch 或 Qualcomm AI Hub 里完成模型和设备适配，再决定是否深入某个厂商的专用后端。

这会改变端侧 AI 的议价结构。NVIDIA 把 Jetson 的 BSP、Agent Skills、NemoClaw 和 Edge-LLM 组合成可执行工作流；Qualcomm 把真实设备、QNN EP、量化和 profiling 放进云端 Workbench；ExecuTorch 和 OpenVINO 试图让模型从训练框架一路落到 ARM、QNN、NPU、GPU 和移动设备；Ultralytics 则把 RKNN 导出直接放进开发者熟悉的 YOLO 工具链。谁能让“模型能不能跑、跑得多快、错在哪里、如何升级”变得可验证，谁就更接近量产客户的真实采购标准。

重点进展

JetPack 7.2 把 Jetson 部署做成 Agent 可执行流程

事实：NVIDIA JetPack 7.2 已上线，面向 Jetson Orin 与 Jetson Thor，包含 Jetson Linux 39.2、Ubuntu 24.04 rootfs、Linux kernel 6.8、CUDA 13.2.1、cuDNN 9.20.0、TensorRT 10.16.2、DeepStream 8.0 和 Holoscan SDK 3.9.0。官方说明该版本引入 Jetson Agent Skills，用于自动化 BSP 定制、内存优化、模型 benchmarking 和部署配置，并支持 NemoClaw 单命令安装。Jetson AI Lab 同时给出 TensorRT Edge-LLM 教程，覆盖 Cosmos Reason2 8B 在 Jetson Thor 上的 NVFP4 部署，以及 Qwen3-4B-Instruct 在 Jetson Orin Nano 8GB 上的 INT4 AWQ 部署。
我的判断：JetPack 7.2 的关键不只是版本升级，而是 NVIDIA 开始把端侧部署问题交给可执行工作流处理。客户真正消耗时间的地方不是安装 CUDA，而是板级配置、内存余量、模型选择、量化路径、性能基线和上线回归。
产业影响：Jetson 的护城河正在从硬件模块转向“能让工程团队少踩坑”的软件流程。国产机器人和边缘盒子平台如果只提供 SDK 包和例程，而没有可复现的 benchmark、自动化配置和升级路径，会在客户验证阶段吃亏。
后续观察：观察 Jetson Agent Skills 是否出现第三方复用案例；观察 Edge-LLM 是否持续补齐 Orin Nano、Thor、纯 C++ 推理、INT4/NVFP4 与 VLM 工作流的公开性能数据。
来源：NVIDIA JetPack 7.2 下载页、JetPack 7.2 论坛公告、TensorRT Edge-LLM on Jetson

Qualcomm AI Hub 把真实设备验证前移到编译与量化阶段

事实：Qualcomm AI Hub Workbench 2026 年 6 月 9 日更新加入 Samsung Galaxy S26 设备，升级 Lite RT 1.4.4，并默认启用 quantize_bias，还在 Compile Job 中加入 transpose-to-reshape 图改写。5 月 28 日更新中，ONNX Runtime QNN Execution Provider 升级到 2.1.0，并改为 plugin library 形式加载；AIMET-ONNX 升级到 2.31.0，增加 Gemm per-channel quantization；AI Hub 也支持将 QNN Context Binary 嵌入 ONNX。
我的判断：Qualcomm 的重点不是多列一个设备，而是把“模型是否能在真实 Snapdragon/Dragonwing 设备上转换、量化、剖析”前移到云端工具链。QNN EP 插件化和 context binary 嵌入，说明它在降低应用把模型交给 Qualcomm NPU 的工程摩擦。
产业影响：这会让手机、AI PC、XR、机器人和 IoT 客户更早排除不适配模型，也会逼迫其他端侧芯片厂商提供类似的真实设备远程验证和 profile 能力。仅提供本地 SDK 下载包，会越来越难满足多型号、多版本、多客户并行验证。
后续观察：观察 IQ-9075、QCS6490、Snapdragon X/8 Elite 等设备在 Workbench 中的可用性和 profile 覆盖；观察 QNN EP 插件化后是否降低 ONNX Runtime 与 Qualcomm AI Stack 之间的版本冲突。
来源：Qualcomm AI Hub Workbench Release Notes

ExecuTorch v1.3.1 继续把 PyTorch 原生路径推向端侧后端

事实：ExecuTorch v1.3.1 于 2026 年 5 月 29 日发布。该版本扩展 Arm、Ethos-U、TOSA、VGF、Cortex-M、NXP、Qualcomm QNN、CUDA、Metal、MLX、Vulkan 和 XNNPACK 后端，并加入 Qwen3.5 MoE、Gemma 4 31B、LFM2.5、Voxtral Realtime/TTS、Llama4 export 等模型支持。QNN 部分增加更多 ATen op、LPAI 和 Direct Mode、custom op、量化 annotation API、数值差异调试、performance dump 和 heap profiling。
我的判断：ExecuTorch 的长期价值在于让端侧部署从“重新实现一遍推理链路”回到 PyTorch 生态内。它不是要替代所有芯片 SDK，而是要把厂商后端纳入一个训练框架原生的导出与运行接口。
产业影响：对端侧硬件厂商来说，接入 ExecuTorch、ONNX Runtime、OpenVINO 这类上游运行时会变成生态门槛。客户会先问模型能否从 PyTorch 直接走到目标硬件，再问专用 SDK 能否进一步优化性能。
后续观察：观察 QNN、Ethos-U、NXP Neutron、Vulkan 和 XNNPACK 后端是否出现稳定的第三方 benchmark；观察 Android LLM runner 与多模态模型支持是否进入真实应用而不只是示例。
来源：ExecuTorch v1.3.1 Release Notes

OpenVINO 2026.2 把 AI PC 和边缘部署推向模型与内存治理

事实：OpenVINO 2026.2 于 2026 年 5 月 28 日发布，新增 Gemma 4 E2B/E4B，CPU 与 GPU 支持 Qwen3-Coder-Next、Qwen3.5、Qwen3.6、Trinity-mini、LFM2 系列，CPU 支持 YOLO26，GPU 支持 Gemma 4 31B/26B-A4B，并把 GPT-OSS-120B 扩展到 GPU。该版本还给 LFM2 增加 SDPA path，支持 Hugging Face Transformers v5.0，并在 GPU 上启用 INT4 KV-cache compression。随后 OpenVINO 2026.2.1 于 6 月 17 日发布，修复 YOLO26 GPU compile 失败以及 NPU plugin 共享 L0 command queue 的优先级问题。
我的判断：OpenVINO 的信号不是“又支持一些模型”，而是 Intel 正在把 AI PC 与边缘服务器的关键问题收敛到模型兼容、KV cache、加载时间、GPU/NPU 插件和 patch 速度上。端侧模型越多样，运行时越像操作系统级依赖。
产业影响：AI PC、工业边缘盒子和本地 Agent 工作站会更依赖可持续更新的运行时，而不是一次性导出的模型文件。OpenVINO 若能把 CPU/GPU/NPU 的故障边界讲清楚，会提高 Intel 平台在企业本地部署中的可维护性。
后续观察：观察 OpenVINO 2026.2.1 后续是否继续修补 NPU/GPU regressions；观察 INT4 KV-cache compression 在长上下文、本地 Agent 和 VLM 工作流中的实际内存收益。
来源：OpenVINO 2026.2 Release Notes、OpenVINO 2026.2.1 GitHub Release

Ultralytics 把 RKNN 导出放进 YOLO26 标准工作流

事实：Ultralytics 文档已提供 YOLO26 到 Rockchip RKNN 的导出指南，页面显示 2026 年 6 月 29 日更新。该指南说明 RKNN 导出已在 RK3588 的 Radxa Rock 5B 和 RK3566 的 Radxa Zero 3W 上测试，预计适用于 RK3576、RK3568、RK3562、RK2118、RV1126B、RV1103、RV1106 等 rknn-toolkit2 支持设备；导出支持 FP16 和 INT8，RV1103/RV1106 等仅 INT8 目标需使用 quantize=8。页面给出 RK3588 上 YOLO26n RKNN 推理时间 65.7 ms/im、YOLO26s 99.2 ms/im 的基准，注明使用 ultralytics 8.4.23 和 COCO128 验证。
我的判断：这条动态对瑞芯微比单独发布 SDK 更重要。开发者如果能直接在 Ultralytics 里 model.export(format="rknn", name="rk3588")，RKNN 就从厂商专有流程进入了视觉算法开发者的默认工具链。
产业影响：端侧视觉模型部署的入口会被上游框架重写。瑞芯微、全志、星宸、地平线等厂商如果能被主流模型工具原生支持，客户验证成本会显著下降；反之，哪怕 NPU 参数不错，也可能卡在模型转换和后处理适配。
后续观察：观察 Ultralytics 是否继续支持分割、姿态、OBB 等非检测任务的 RKNN 导出；观察 RKNN 导出是否扩展到 RK3576/RV1126B 的公开 benchmark 和生产案例。
来源：Ultralytics YOLO26 RKNN 导出指南

SGLang v0.5.14 显示推理栈竞争正在进入调度和缓存细节

事实：SGLang v0.5.14 于 2026 年 6 月 26 日发布，新增 GLM-5.2、LiquidAI LFM2.5、Kimi-K2.7-Code、Poolside Laguna-M.1、DiffusionGemma 等模型支持，并加入 DeepSeek-V4 在 GB300 上的 serving 路径、Waterfill 与 LPLB MoE load balancing、Blackwell SM100 上的 KDA CuteDSL prefill kernel、linear-attention prefix-cache int8 checkpoint pool、DeepSeek-V4 NVFP4 MoE 量化、Ascend NPU 支持 DeepSeek-V4 等更新。
我的判断：SGLang 看起来更偏数据中心，但它揭示了端侧部署很快也会面对的问题：真正决定体验的不是模型名字，而是 prefilling、KV/cache、MoE 调度、speculative decoding、量化和多后端一致性。云端推理栈的优化方向会向边缘服务器、工作站和机器人开发机下沉。
产业影响：端侧 AI 软件栈不会长期停留在“把模型塞进 NPU”。随着本地 Agent、机器人 VLM 和多模型 pipeline 变复杂，调度器、cache 命中、首 token 延迟和观测指标会进入客户验收表。
后续观察：观察 SGLang 的 Ascend NPU、AMD、Intel XPU 和 Apple MLX 支持是否继续成熟；观察类似 Waterfill/LPLB、HiCache、prefix-cache compression 的机制是否被边缘运行时吸收。
来源：SGLang v0.5.14 Release Notes

llama.cpp b9842 把跨平台二进制交付变成开源端侧入口

事实：llama.cpp b9842 于 2026 年 6 月 29 日发布，GitHub release 页面显示其二进制资产覆盖 Android arm64、Ubuntu arm64、Ubuntu OpenVINO 2026.2.1 x64、Ubuntu ROCm 7.2 x64、Ubuntu SYCL FP16 x64、macOS arm64/x64、iOS XCFramework，以及 Windows CUDA 12.4/13.3 包。该 release 还包含 /v1/models 中 preset 与 cached model entries 去重的更新。
我的判断：llama.cpp 的优势不只是 GGUF 和量化，而是它把“能不能在我的设备上拿到可运行包”做成了开源项目的日常交付能力。对很多端侧开发者来说，预编译包、OpenAI 兼容接口和跨平台覆盖，比厂商白皮书更直接。
产业影响：这会继续压低端侧模型部署的入门门槛，也会迫使芯片厂商用更好的后端集成、benchmark 和驱动质量来争取开发者。硬件平台若不能被 llama.cpp、OpenVINO、ONNX Runtime、ExecuTorch 等入口覆盖，会在实验和原型阶段失去可见度。
后续观察：观察 llama.cpp 的 OpenVINO、SYCL、ROCm、Android arm64 包是否保持稳定更新；观察各芯片厂商是否围绕 GGUF、OpenAI API 兼容服务和本地模型管理提供正式支持。
来源：llama.cpp b9842 Release

反共识观察

第一，芯片厂商 SDK 的入口权正在被上游工具链稀释。过去客户为了用某颗 NPU，必须从厂商 SDK 开始；现在 Ultralytics 可以导出 RKNN，ExecuTorch 可以接 QNN 与 Arm 后端，OpenVINO 可以接 Intel CPU/GPU/NPU，llama.cpp 可以提供跨平台运行入口。这个判断可以验证：如果未来 1 到 2 个月更多端侧客户案例从 PyTorch、YOLO、GGUF、ONNX 或 OpenAI-compatible server 开始描述部署流程，而不是从芯片 SDK 开始，说明入口确实在外移。

第二，端侧 AI 的关键 KPI 可能会从“单模型极限性能”转向“可测工作流覆盖率”。模型转换成功率、量化精度损失、profile 可解释性、真实设备可用性、版本回退、cache 与内存统计、API 兼容性，会比孤立的 token/s 或 TOPS 更影响量产决策。这个判断也可验证：若未来发布中更多厂商强调 Workbench、benchmark、Agent Skills、remote profiling、context binary、导出插件和 CI，而不是只强调新模型或新算子，说明部署工作流正在成为竞争核心。

观察清单

JetPack 7.2 的 Agent Skills 是否形成公开第三方案例，尤其是内存优化和模型 benchmark 是否能跨 Orin/Thor 复用。
Qualcomm AI Hub Workbench 的 QNN EP 插件化是否减少 ONNX Runtime、QAIRT、AIMET 之间的版本冲突，并覆盖更多 Dragonwing 真实设备。
ExecuTorch v1.3.1 的 QNN、Ethos-U、NXP、Vulkan 和 XNNPACK 后端是否出现独立 benchmark 与生产应用。
OpenVINO 2026.2.1 后续是否继续修复 NPU/GPU 已知问题，INT4 KV-cache 是否被本地 Agent 和 VLM 应用采用。
Ultralytics RKNN 导出是否扩展到更多 YOLO 任务类型、更多 Rockchip 芯片和第三方板卡公开性能。
SGLang 的 MoE 调度、prefix-cache 和 NPU 后端优化是否被边缘服务器和本地工作站运行时借鉴。
llama.cpp 跨平台 release 包是否继续覆盖 OpenVINO、SYCL、ROCm、Android 和 iOS，并保持 OpenAI API 兼容入口稳定。