端侧智能竞争正在从参数转向系统凭证

核心观点

本周端侧 AI、机器人、Agent 和模型部署的共同变化，不是某个单点参数继续上行，而是厂商开始把“能否被客户验收”做成产品本身。NVIDIA、Qualcomm、瑞芯微、ONNX Runtime、MCP 和全志的信号放在一起看，竞争单元正在从芯片、模型或 SDK，变成一组可采购、可更新、可认证、可审计的系统凭证。一个可辩论判断是，未来 1 到 2 个季度，端侧智能平台的真实分化会更多来自参考设计、运行时维护、安全认证、身份授权和工业接口，而不是 TOPS 或模型榜单。另一个反共识判断是，中等算力但边界清楚的平台，可能比最高算力平台更早拿到可复用订单。

本期主线

本周的主线可以概括为“参数退后，凭证前移”。机器人侧，NVIDIA Isaac GR00T 参考机器人和 Qualcomm IQ10 RRD 都把本体、传感器、主控、软件、训练和部署流程打包成可复用系统；NVIDIA Halos 则把安全架构、传感器桥接和认证准备放到机器人平台的核心位置。软件侧，RKNN-LLM 和 ONNX Runtime 的更新说明端侧模型部署正在进入持续维护阶段，客户需要的是可升级、可诊断、可回退的运行底座。Agent 侧，MCP 企业托管授权把工具连接从个人逐个授权推进到组织级身份策略。

这意味着端侧 AI 的下一轮竞争不会只发生在发布会参数表里，而会发生在客户验收清单里。采购方会追问：这套平台有没有量产参考设计，传感器是否同步，模型运行时能否持续修补，安全能否通过第三方评估，工具调用是否跟随企业身份和审计，接口和温度范围是否适合工业现场。能回答这些问题的厂商，会比只展示单点峰值性能的厂商更接近真实部署。

重点进展

NVIDIA GR00T 参考机器人把研究平台做成统一硬件入口

事实：NVIDIA 2026 年 5 月 31 日发布 Isaac GR00T Reference Humanoid Robot，基于 Unitree H2 Plus、Sharpa 五指灵巧手、Jetson AGX Thor T5000 和 Isaac GR00T 软件平台，覆盖数据采集、仿真、训练、评估和部署。官方披露该机器人包含 75 个自由度，Jetson AGX Thor T5000 提供 2,070 FP4 TFLOPS、128GB 统一内存和 40W 到 130W 可配置功耗，预计 2026 年晚些时候由 Unitree 提供。
我的判断：这不是单纯“又一个人形机器人”，而是 NVIDIA 试图把机器人研究的起点标准化。统一本体、灵巧手、板载算力、仿真和开源模型，会让研究者少花时间重搭硬件，多花时间比较策略、数据和任务泛化。
产业影响：Jetson Thor 的价值被绑定到机器人开发流程，而不只是模块参数。对国产机器人主控和端侧 SoC 厂商来说，真正压力在于能否提供同等完整的参考系统，而不是只推出开发板。
后续观察：看 Unitree 供货后是否出现第三方基准、真实课题复现、GitHub/Hugging Face 工作流更新，以及研究机构是否把同一套平台用于跨实验室结果比较。
来源：NVIDIA Newsroom

Qualcomm IQ10 RRD 把机器人芯片包装成生产级参考设计

事实：Qualcomm 2026 年 6 月 1 日介绍 Dragonwing IQ10 Robotics Reference Design，称其把计算、传感、网络和软件组合为部署就绪系统，最高提供 700 TOPS AI 性能，配备 18 个 Qualcomm Oryon CPU 核、多核 NPU 和 GPU，原生支持最多 12 路 GMSL2 摄像头，并覆盖 LiDAR、ToF、IMU、PCIe、TSN、USB、CAN、EtherCAT 和 CAN-FD 等接口，全球可用性通知指向 2026 年 9 月。
我的判断：IQ10 RRD 的重点不是 700 TOPS，而是 Qualcomm 承认机器人客户真正购买的是系统集成确定性。多传感器同步、确定性控制、ROS2、生命周期管理和生态伙伴，比单颗芯片峰值更接近机器人厂商的量产痛点。
产业影响：机器人 SoC 竞争会被参考设计重写。NVIDIA、Qualcomm、Intel、地平线、黑芝麻、瑞芯微和爱芯元智之间的差异，会越来越多体现在谁能缩短客户从样机到现场部署的周期。
后续观察：看 IQ10 RRD 是否按 2026 年 9 月节奏披露开发套件价格、功耗、软件版本和首批可购买整机；看 NEURA、Advantech、NEXCOM、Thundercomm 等伙伴是否推出量产形态。
来源：Qualcomm OnQ Blog

RKNN-LLM v1.3.0 显示端侧大模型栈进入维护阶段

事实：RKNN-LLM release-v1.3.0 于 2026 年 6 月 17 日发布，新增 Qwen3.5、Gemma4、SmolLM3 支持，优化多模态输入接口和 cache 复用策略，新增多 EOS token ID 与 ignore_eos_token，改进 RK3576 长上下文解码，修复 RV1126B 内存统计和 RK3588 部分模型推理数值溢出，并提升 rkllm_server_demo 与 OpenAI API 接口兼容性。GitHub API 校验该 tag 的发布时间为 2026-06-17T09:43:42Z。
我的判断：瑞芯微这次更新的价值不在模型名单，而在故障边界。长上下文、cache、EOS 行为、数值溢出、内存统计和 API 兼容，都是客户量产后最容易把 demo 变成售后问题的部分。
产业影响：端侧软件栈正在从“模型转换工具”变成“可维护运行时”。RK3576、RK3588、RV1126B 等平台能否继续进入 IPC、工业盒子、HMI 和轻量机器人，取决于 RKNN-LLM 是否持续吸收新模型并修复真实运行问题。
后续观察：看瑞芯微是否披露 v1.3.0 在不同芯片上的首 token 延迟、长上下文内存、功耗和连续运行稳定性；看第三方厂商是否把 OpenAI API 兼容服务作为正式产品入口。
来源：RKNN-LLM release-v1.3.0

ONNX Runtime 1.27.0 把通用运行时推向后端治理层

事实：ONNX Runtime v1.27.0 于 2026 年 6 月 19 日发布，GitHub API 校验发布时间为 2026-06-19T21:11:07Z。该版本目标 ONNX 1.21，明确 CUDA 12 包进入弃用路径并建议迁移 CUDA 13，同时在 Execution Provider Plugin API 中加入 zero-copy I/O、session 初始化结束回调、plugin EP session-options getter 和 CUDA Plugin EP streams/external allocators provider options，并包含 WebGPU、CoreML、TensorRT RTX、DML、QNN 等后端更新。
我的判断：ONNX Runtime 的角色正在从模型格式桥梁变成异构后端治理层。当 QNN、OpenVINO、TensorRT RTX、WebGPU、CoreML、CUDA 和 DML 都需要独立升级、诊断和安全修复时，运行时本身就是端侧 AI 的控制平面。
产业影响：这会削弱单一芯片 SDK 对开发者入口的锁定。应用开发者可能先用 ONNX Runtime 建立可迁移部署路径，再根据功耗、延迟和售后诊断决定是否深入厂商专用 SDK。
后续观察：看 plugin EP 的 zero-copy、session 回调和 provider options 是否被 QNN、OpenVINO、TensorRT RTX、WebGPU 等后端实际采用；看 CUDA 12 弃用是否推动边缘设备软件栈升级。
来源：ONNX Runtime v1.27.0

NVIDIA Halos 把机器人竞争拉进安全认证层

事实：NVIDIA 2026 年 6 月 22 日发布 Halos for Robotics，称其覆盖 IGX Thor、Holoscan Sensor Bridge、Halos OS、Outside-In Safety Blueprint 和 AI Systems Inspection Lab。官方同时称 Agility 是首批采用者之一，将把 IGX Thor 和 Halos Core 集成进 Digit 的安全人类检测系统，并通过 Halos AI Systems Inspection Lab 准备 IEC 61508、ISO 13849、ISO/IEC TR 5469 等标准相关认证。
我的判断：Halos 的核心信号是，机器人主控平台正在从“算力中心”转向“准入中心”。工业客户并不只问机器人能不能做动作，还会问它能否在人员混行环境中被评估、被审计、被认证。
产业影响：机器人硬件平台会拉动安全 OS、外部摄像头、传感器桥接、日志、失效分析和第三方认证需求。缺少安全架构的高算力平台，可能很难进入高价值工业和物流场景。
后续观察：看 Halos Core 和 Outside-In Safety Blueprint 的开发者反馈、第三方认证进度、Agility Digit 的现场安全指标，以及国内机器人厂商是否开始公开类似安全凭证。
来源：NVIDIA Halos for Robotics

MCP 企业托管授权把 Agent 工具连接变成组织策略

事实：Model Context Protocol 官方博客 2026 年 6 月 18 日宣布 Enterprise-Managed Authorization extension 稳定，支持组织通过身份提供商集中配置 MCP server 访问，用户首次登录即可继承被授权的连接，减少逐个应用 OAuth 授权。官方称 Okta 是首个支持的身份提供商，Anthropic、Microsoft、Okta 和多家 MCP server 正在采用该扩展。
我的判断：这条动态说明 Agent 基础设施的瓶颈不再是“能否接工具”，而是“工具连接能否被企业统一授权和审计”。MCP 如果停留在个人开发者手动授权阶段，很难进入大型企业的真实工作流。
产业影响：Agent 平台会越来越像企业控制面，而不是单个聊天应用。模型、工具、身份、审计和策略会被拆开管理，这也会推动本地工作站、私有云和边缘服务器承担更多受控执行任务。
后续观察：看 EMA 是否扩展到更多身份提供商、MCP host 和企业 SaaS；看企业是否开始公开 MCP server 的权限模板、审计字段和条件访问规则。
来源：Model Context Protocol Blog

全志 T536 说明中低算力平台仍有确定性窗口

事实：全志 T536 产品页显示，该系列面向智慧工业，集成 4 核 Arm Cortex-A55 CPU、双 RISC-V MCU 和 NPU，NPU 算力 2 TOPS，支持 4 路 CAN-FD、2 路 GMAC、LocalBus、ECC 全通路数据校验及纠错，工作温度范围为 -40 摄氏度到 85 摄氏度，软件系统支持 AMP 多核系统，包括 Tina Linux、RTOS 和 Baremetal。
我的判断：T536 不会在大模型推理参数表里显眼，但它代表端侧 AI 的另一种真实需求：工业设备和低成本机器人需要的是接口、宽温、实时 MCU、纠错和供应确定性。很多场景并不需要大模型常驻，却需要轻量视觉、控制和可靠通信长期在线。
产业影响：端侧 AI 如果只按 TOPS 排序，会低估全志、瑞芯微和 SigmaStar 这类成熟 SoC 厂商的韧性。工业 HMI、能源网关、PLC 周边、低成本服务机器人和工业视觉，会继续奖励“够用算力 + 强接口 + 长生命周期”。
后续观察：看 T536 是否披露更多工业机器人、智慧电力和工业 HMI 客户；看全志是否把 Tina Linux、RTOS、轻量 NPU 和视觉算法包做成更完整的 AI 工业参考方案。
来源：全志 T536 产品页

反共识观察

第一，端侧智能的下一轮赢家未必是“参数最大的公司”，而可能是“凭证最多且可复用的公司”。NVIDIA 和 Qualcomm 正在给机器人提供完整参考系统，瑞芯微和 ONNX Runtime 在补运行时维护凭证，MCP 在补企业授权凭证，全志则用工业接口和宽温边界给出可靠性凭证。这些凭证分属不同层级，但共同指向同一件事：客户更愿意为降低部署不确定性付费，而不是为孤立参数付费。

第二，端侧 AI 的商业化可能先奖励中等算力平台。最高算力适合定义技术上限，但很多早期订单来自工业、IPC、HMI、物流、服务机器人和企业工作站，这些场景更看重接口、功耗、软件维护、安全认证、身份治理和供应稳定。这个判断可以验证：如果未来 1 到 4 周更多公司发布的是参考设计、客户整机、运行时修复、安全认证、权限治理和工业接口方案，而不是单独发布 TOPS、模型榜单或演示视频，说明产业重心已经从参数转向系统凭证。

观察清单

Unitree 供货的 GR00T 参考机器人是否形成跨实验室可复现基准，以及 G1 工作流是否按计划出现在 GitHub 和 Hugging Face。
Qualcomm IQ10 RRD 是否在 2026 年 9 月前后披露开发套件、价格、功耗、软件版本和首批量产伙伴。
RKNN-LLM v1.3.0 是否给出 RK3576、RK3588、RV1126B 上的公开性能、内存和连续运行数据。
ONNX Runtime Plugin EP API 是否被 QNN、OpenVINO、TensorRT RTX、WebGPU 等后端用于独立升级、zero-copy 和诊断。
NVIDIA Halos 是否在 Agility Digit 或其他工业机器人上获得第三方认证进展和现场安全指标。
MCP EMA 是否扩展到更多身份提供商、MCP host、企业 SaaS 和可审计权限模板。
全志 T536 是否披露工业机器人、智慧电力或工业 HMI 客户，以及更完整的 Tina Linux/RTOS/NPU 参考方案。