端侧AI软件栈正在变成可更新底座

核心观点

端侧 AI 软件栈的竞争正在从“厂商给一套 SDK，客户按文档转换模型”，转向“运行时、驱动、模型服务器、量化工具和 API 兼容层能否像操作系统组件一样持续更新”。瑞芯微 RKNN-LLM、爱芯 AX-LLM、ONNX Runtime、Windows AI Execution Providers、llama.cpp 和 vLLM Semantic Router 的共同信号是：模型部署的主要风险已经不只是算子不支持，而是缓存、量化、工具调用、跨平台二进制、系统更新和运行证据能否被长期维护。一个可辩论判断是，未来 1 到 2 个季度，端侧平台的真实门槛会更多来自“可更新底座”的工程纪律，而不是单次 benchmark 成绩。另一个反共识判断是：开放运行时和系统级分发渠道会先拿走开发者入口，芯片厂商 SDK 必须在功耗、稳定性和售后诊断上证明迁移价值。

本期主线

本期端侧 AI 软件栈动态的主线，是“部署链路正在产品化”。瑞芯微把 RK3576、RK3588 等平台上的大模型运行问题落到缓存复用、长上下文、OpenAI API 兼容和数值溢出修复；爱芯元智把 AX650/AXCL 的模型运行时做成统一 axllm、Docker 镜像、Windows AXCL 构建和内存预检；ONNX Runtime 继续把 Execution Provider 插件化、诊断化；Microsoft 通过 Windows Update 更新各类 AI Execution Provider；llama.cpp 则用密集预编译资产覆盖 Android、iOS、Windows Arm64、OpenVINO、SYCL、Vulkan、ROCm 和 Adreno OpenCL。

这说明端侧软件栈正在从“转换工具”升级成“可运营底座”。客户真正要买的不是一次成功的 demo，而是后续模型版本变化、驱动变化、系统更新、API 兼容、长上下文内存压力、工具调用格式和多后端故障都能被定位、回退和持续修补。对芯片厂商而言，SDK 不再只是卖芯片的附件，而会变成客户是否敢量产的核心凭证。

重点进展

瑞芯微 RKNN-LLM v1.3.0 把端侧大模型栈推进到运行时维护阶段

事实：RKNN-LLM 于 2026 年 6 月 17 日发布 release-v1.3.0，新增 Qwen3.5、Gemma4、SmolLM3 模型支持，优化多模态输入接口和 cache 复用策略，支持多个 EOS token ID 和 ignore_eos_token 参数，改进 RK3576 上部分模型的长上下文解码性能，修复 RV1126B 内存统计和 RK3588 部分模型推理数值溢出问题，并提升 rkllm_server_demo 与 OpenAI API 接口的兼容性。
我的判断：这条更新的重点不是模型名单变长，而是瑞芯微开始把“能跑大模型”拆成更细的运行时问题：缓存复用、EOS 行为、长上下文、数值稳定、性能统计和 API 兼容。它更接近客户量产时会遇到的故障边界。
产业影响：RK3576/RK3588 的端侧 AI 竞争力，会越来越依赖 RKNN-LLM 能否持续吸收新模型和修复线上问题。对工业边缘盒子、IPC、HMI 和轻量机器人来说，OpenAI API 兼容也会降低应用迁移门槛。
后续观察：看 RKNN-LLM 是否披露 Qwen3.5/Gemma4/SmolLM3 在 RK3576、RK3588、RV1126B 上的延迟、内存和功耗基准；看第三方设备厂商是否开始把 rkllm_server_demo 作为正式服务入口。
来源：RKNN-LLM release-v1.3.0

爱芯 AX-LLM 把模型部署从样例工程推进到多平台运行包

事实：AX-LLM README 显示，该项目由爱芯元智主导，用于探索常用 LLM 在已有芯片平台上的落地能力，支持 AX650A/AX650N 和 AX630C，覆盖 Qwen2.5、Qwen3、MiniCPM、SmolLM2、Llama3，以及 Qwen3-VL-2B-Instruct、Qwen3.5-2B、FastVLM-1.5B-GPTQ-Int4、InternVL3_5-1B-GPTQ-INT4 等 VLM。其 latest release 提供 AX650、AXCL x86/arm64/riscv64、Windows MinGW64 二进制和 Docker 镜像。6 月 22 日主干提交还合并了 Qwen3Omni/audio 相关改动、AXCL Windows 构建修复和 CMM 内存 guard。
我的判断：AX-LLM 的意义不在于爱芯又支持了一个模型，而在于国产端侧芯片厂商正在补“交付形态”：统一命令、固定下载链接、离线 Docker、Windows AXCL、内存预检和多模态仓库，比单个模型转换脚本更接近开发者真正需要的工作流。
产业影响：爱芯的优势如果成立，会体现在低成本板端 VLM、视频理解和行业边缘设备中。它也给其他国产 NPU 厂商一个压力：模型栈不能只停留在 demo 仓库，必须能被 CI、Docker、Windows 工具链和板端内存限制约束。
后续观察：看 AX-LLM 的 rolling release 是否能保持二进制与文档同步；看 Qwen3.5、MiniCPM-V-4.6、Jina embedding 和 Qwen3Omni 这些仓库是否给出可复现吞吐、首 token 延迟和长时间稳定性。
来源：AX-LLM latest release、AX-LLM 6 月 22 日合并提交

ONNX Runtime 1.27.0 显示通用运行时正在变成后端治理层

事实：ONNX Runtime 于 2026 年 6 月 19 日发布 v1.27.0，说明该版本面向 ONNX 1.21，CUDA 12 包被明确标名且进入弃用路径，建议迁移到 CUDA 13；同时加入多项安全修复、Execution Provider Plugin API 的 zero-copy I/O、session 初始化回调、plugin EP session-options getter、CUDA Plugin EP streams/external allocators provider options，并扩展 WebGPU、CoreML、TensorRT RTX、DML、QNN 等后端更新。
我的判断：ONNX Runtime 的战略价值正在从“统一模型格式”转向“统一后端生命周期”。当 CUDA、WebGPU、CoreML、QNN、TensorRT RTX、OpenVINO 等后端都需要独立修复和诊断时，运行时本身就变成了端侧异构计算的治理层。
产业影响：这会削弱单一芯片 SDK 对上层应用的绝对锁定。应用开发者会更倾向先用 ONNX Runtime 这类通用运行时建立可迁移的模型路径，再根据功耗和延迟决定是否深入厂商专用 SDK。
后续观察：看 plugin EP API 的 zero-copy 和 session 回调是否被 QNN、OpenVINO、TensorRT RTX、WebGPU 等后端实际采用；看 CUDA 12 弃用是否推动边缘设备软件栈加速升级到 CUDA 13。
来源：ONNX Runtime v1.27.0

Windows AI 更新把端侧推理后端变成操作系统可服务组件

事实：Microsoft 的 AI updates history 显示，Windows 11 26H1 在 2026 年 5 月 26 日更新 AMD MIGraphX、AMD Vitis、Intel OpenVINO、Nvidia TensorRT-RTX 和 Qualcomm QNN Execution Providers，其中 Qualcomm QNN 为 2.2605.2.0。KB5096135 页面说明，Qualcomm QNN Execution Provider 是用于 ONNX Runtime 和 Windows 机器学习场景的执行提供方，可通过 QNN SDK 构建 QNN graph，并通过 Windows Update 自动下载安装，适用于 Windows 11 24H2 和 25H2。
我的判断：这件事容易被低估，因为它不像发布新模型那样显眼。但它说明端侧 AI 加速正在进入系统更新通道：运行时后端不再只是开发者手动下载的 SDK，而是 Windows 维护的 AI 组件。
产业影响：对 Qualcomm、Intel、AMD、NVIDIA 和 AI PC 厂商来说，系统级分发会改变软件栈责任边界。谁能进入 OS 组件更新表，谁就能更早触达大量终端；谁的后端只能依赖应用自带 DLL，谁就要承担更高的兼容和售后成本。
后续观察：看 Windows AI updates 是否继续按月更新 Execution Providers；看 QNN、OpenVINO、TensorRT-RTX 在 Windows ML、ONNX Runtime、Copilot+ PC 应用中的调用量和故障修复周期是否公开。
来源：Microsoft AI updates history、KB5096135 Qualcomm QNN Execution Provider

llama.cpp b9763 继续把本地模型运行时做成跨平台分发层

事实：llama.cpp 于 2026 年 6 月 22 日发布 b9763，发布资产覆盖 macOS arm64/x64、iOS XCFramework、Ubuntu x64/arm64/s390x、Ubuntu Vulkan、ROCm 7.2、OpenVINO 2026.2、SYCL FP32/FP16、Android arm64、Windows x64/arm64 CPU、Windows Arm64 OpenCL Adreno、Windows CUDA 12.4/13.3、Vulkan、OpenVINO、SYCL、HIP 等组合。该版本主体变更包括 server 为 tool call responses API 增加 id。
我的判断：llama.cpp 的真正价值已经超过 GGUF 推理本身，它正在成为“本地模型交付格式 + 预编译运行时 + OpenAI 风格服务接口”的组合。对端侧应用来说，跨平台二进制和工具调用一致性，往往比某个后端极限性能更先决定能不能快速试错。
产业影响：这会继续抬高厂商 SDK 的门槛。若专用 NPU SDK 不能显著降低功耗、内存或延迟，开发者会先用 llama.cpp 在 Android、Windows Arm、OpenVINO、Vulkan、Adreno 和 Apple 设备上验证产品，再决定是否迁移。
后续观察：看 Windows Arm64 OpenCL Adreno、OpenVINO 2026.2、SYCL、ROCm 7.2 包的下载和 issue 是否持续增长；看 tool call response id 是否减少本地 Agent 服务中的调用追踪问题。
来源：llama.cpp b9763

vLLM Semantic Router Fusion 把模型部署问题推向路由与证据层

事实：vLLM 团队于 2026 年 6 月 16 日发布 Semantic Router Fusion 文章，介绍 Fusion 作为 vLLM-SR 的路由原语：一个请求可由多个 panel models 生成候选答案，再由 judge model 分析共识、矛盾、覆盖缺口和独特洞察，并合成最终回答；系统保留 routing policy、trace、失败模型记录和 token usage，并支持 vllm-sr/auto、vllm-sr/fusion 和 request-level plugin override 等入口。
我的判断：这条动态说明“模型部署”正在从选择单个 checkpoint，变成选择一个可审计的模型系统。端侧和边缘服务器未来未必只跑一个最强模型，而可能按隐私、延迟、成本、任务难度和上下文连续性路由到多个本地/云端模型组合。
产业影响：对 AI PC、企业边缘服务器和机器人本地基站来说，运行时不只要负责 token/s，还要负责路由策略、失败处理、模型组合、trace 和成本账本。端侧模型越多，软件栈越需要一个可观察控制面。
后续观察：看 vLLM-SR Fusion 是否给出可复现实验，比较 Fusion、单模型、AutoMix、Router-R1 等路线的质量/成本/延迟；看本地 vLLM 后端、私有模型和公开 provider 的混合部署是否成为企业 Agent 的常见架构。
来源：vLLM Semantic Router Fusion

反共识观察

第一，端侧 AI 软件栈的赢家未必是“最封闭、最一体化”的厂商 SDK。更可能出现的是双层结构：开放运行时先赢开发者入口，厂商 SDK 后赢量产环节。llama.cpp、ONNX Runtime、vLLM-SR、Windows AI 组件和 AX-LLM 的共同方向，是让模型、后端、服务接口、trace 和运行包更容易被替换；芯片厂商如果只强调官方 SDK 性能，而不能提供可更新、可诊断、可回退的量产底座，迁移吸引力会下降。

第二，端侧 AI 的“系统更新能力”会成为新的护城河。过去客户问的是模型能不能转换成功，未来客户会问：驱动能不能自动更新，后端能不能独立升级，长上下文内存能不能预警，工具调用能不能追踪，Windows/Android/Linux/板端能不能保持一致，模型换代后是否还能复用服务接口。这个判断可以被验证：如果未来 1 到 4 周更多发布说明开始强调 Execution Provider、OpenAI API 兼容、Docker/Windows 分发、内存 guard、cache policy、trace 和 error policy，而不是只强调新增模型数量，说明软件栈竞争已经转向可运营底座。

观察清单

RKNN-LLM v1.3.0 是否给出 RK3576、RK3588、RV1126B 上的公开性能、内存和长上下文数据。
AX-LLM 的 rolling release 是否稳定维护 AX650、AXCL、Windows、Docker 和多模态模型仓库的一致性。
ONNX Runtime Plugin EP API 是否被 QNN、OpenVINO、TensorRT-RTX、WebGPU 等后端用于独立升级和 zero-copy。
Windows AI Execution Providers 是否继续按月进入 Windows Update，并披露更多版本、设备覆盖和修复说明。
llama.cpp 的 Windows Arm64 Adreno、OpenVINO、SYCL、Vulkan、ROCm 包是否出现更多真实端侧应用案例。
vLLM-SR Fusion 是否发布可复现实验，证明多模型路由在质量、成本和延迟之间有稳定收益。
芯片厂商 SDK 是否开始把内存预检、trace、工具调用、OpenAI API 兼容和失败回退作为默认能力，而不是附属 demo。