模型竞争正在从云端榜单转向本地常驻

核心观点

大模型与多模态模型的近期主线，不是单纯把参数、上下文或榜单继续推高，而是把模型做成能在设备、浏览器、机器人、文档系统和语音链路里长期驻留的能力单元。MiniCPM-o 4.5、Gemma 4/LiteRT-LM、OpenAI 实时语音模型、Mistral OCR 4、Gemini Robotics-ER 1.6 和 DeepSeek V4 Preview 指向同一个变化：模型正在从“被调用一次的云服务”变成“持续感知、持续生成、持续接工具的本地或半本地模块”。一个可辩论判断是，未来 1 到 2 个月，端侧与机器人场景更缺的不是更大的通用模型，而是能稳定处理流式音视频、文档结构、空间坐标、工具调用和低内存运行的专用模型。另一个反共识判断是，9B 到 13B active 这类小模型和稀疏模型，可能比新的超大闭源模型更快改变硬件选型，因为它们直接影响手机、AI PC、工业盒子和机器人主控能否独立完成任务。

本期主线

本期模型进展的共同主线，是“驻留化”。过去模型发布最容易被简化成参数规模、榜单排名和 API 价格，现在更有产业含义的指标变成了：能否在 12GB 内存以内实时交互，能否在浏览器和手机侧稳定跑，能否一边听一边说，能否把 PDF、表格、版面和置信度交给 RAG，能否把图像、视频、音频和语言转换成机器人可执行的空间结构，能否用 1M 上下文降低 Agent 的检索和摘要损耗。

这会反过来影响端侧芯片和软件栈。对 NVIDIA Jetson、瑞芯微 RK3588/RK3576、Qualcomm、Intel、联发科、全志、星宸、地平线、黑芝麻和爱芯元智来说，模型侧的压力不只是“跑不跑得动大模型”，而是能否持续喂给模型音频、视频、传感器、文档和工具结果，并在功耗、内存、延迟、热设计和隐私边界内完成闭环。真正会改变采购决策的模型，往往不是发布页上最强的模型，而是能被 SDK、运行时、量化格式和业务流程稳定吸收的模型。

重点进展

MiniCPM-o 4.5 把端侧多模态推向全双工交互

事实：OpenBMB 的 MiniCPM-o 4.5 演示仓库显示，该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 以端到端方式构建，总参数量 9B，支持实时连续视频和音频输入，同时并发生成文本和语音输出。论文页面进一步说明，MiniCPM-o 4.5 采用 Omni-Flow 统一流式框架，目标是实时全双工全模态交互，并称其可在低于 12GB RAM 成本的边缘设备上运行。
我的判断：这条动态的重要性不是“9B 模型又刷新了多模态分数”，而是它把端侧交互从轮流问答推进到持续感知。机器人、车载、陪伴设备和工业助手真正需要的是模型在说话时仍然能看、听和修正，而不是等用户停顿后再处理一个完整回合。
产业影响：全双工多模态会提高端侧平台对音视频同步、缓存、编解码、麦克风阵列、ISP、NPU/CPU 协同和散热的要求。瑞芯微、Qualcomm、Intel、联发科和 Jetson 类平台如果只优化单次文本解码，很难覆盖这种长期在线交互负载。
后续观察：看 MiniCPM-o 4.5 的 GGUF、Ollama、llama.cpp 和移动端适配是否能稳定支持打断、回声消除、长时运行和低功耗；看真实设备是否披露端到端延迟、内存峰值和连续运行温度。
来源：OpenBMB MiniCPM-o-Demo、MiniCPM-o 4.5 arXiv

Gemma 4 与 LiteRT-LM 把本地 Agent 做成运行时问题

事实：Google AI Edge 博客显示，LiteRT-LM 面向 Gemma 4 的跨平台端侧部署，覆盖 Android、iOS 和 Web。官方披露 Gemma 4 E2B 在 Android GPU 后端解码速度为 52 tokens/s，在 iOS Metal 上为 56 tokens/s，在 MacBook Pro WebGPU 上可达 76 tokens/s；LiteRT-LM 原生支持 Gemma 4 的 Multi-Token Prediction，可带来最高 2.2 倍加速，并通过权重缓存让约 2.58GB 的 Gemma 4 E2B 在 Apple 移动 CPU 上以 607MB 物理内存占用运行。另一篇 Google 开发者博客把 Gemma 4 12B 与 LiteRT-LM 的本地 OpenAI-compatible endpoint 绑定到本地 Agent 工作流。
我的判断：Gemma 4 的产业意义不只是开放权重，而是 Google 把模型、运行时、端点协议和本地 Agent 串成一条可部署路径。模型能否上端，越来越取决于运行时是否能处理 MTP、KV cache、动态加载视觉/音频组件和浏览器 WebGPU。
产业影响：端侧模型竞争会从“谁给出权重”转向“谁给出可复用运行时”。这会给 ONNX Runtime、OpenVINO、TensorRT、RKNN、Qualcomm AI Stack 和 llama.cpp 带来压力：开发者会优先选择能在手机、浏览器、AI PC 和工作站之间迁移的路径。
后续观察：看 Gemma 4 12B 在普通 AI PC 和高端手机上的真实长会话内存、工具调用延迟和电池消耗；看 LiteRT-LM 的 OpenAI-compatible endpoint 是否被本地 coding agent、RAG 工具和浏览器插件采用。
来源：LiteRT-LM 端侧部署博客、Gemma 4 12B 本地 Agent 博客

OpenAI 实时语音模型把语音入口从听写推向 Agent 控制

事实：OpenAI 开发者模型页显示，GPT-Realtime-2 是面向实时语音交互的推理模型，支持文本、音频和图像输入，输出文本和音频，支持可配置 reasoning effort、更强指令跟随和更可靠工具使用，模型页列出 128,000 context window 与 32,000 max output tokens。OpenAI 的实时翻译 Cookbook 说明 gpt-realtime-translate 面向直播、通话和视频会话的语音到语音翻译，可在处理输入音频的同时流式返回译文音频；GPT-Realtime-Whisper 模型页则显示其面向实时转写，按音频时长计费。
我的判断：语音模型正在从 ASR/TTS 管线变成 Agent 控制入口。过去语音只是把用户的话转成文本，再交给 LLM；现在语音模型本身要承担实时推理、打断处理、工具策略和跨语言输出，端侧设备会被要求长期维护低延迟音频会话。
产业影响：车载、智能音箱、可穿戴、会议终端和服务机器人会更早感受到这类模型的压力。硬件平台不只要跑 LLM，还要处理回声消除、VAD、语音流、工具调用和多轮上下文，单纯堆 TOPS 不一定能改善体验。
后续观察：看 GPT-Realtime-2 是否在真实客服、会议、车载和机器人产品中披露打断成功率、工具调用失败率、端到端延迟和音频 token 成本；看本地语音模型是否能在隐私敏感场景替代云端实时链路。
来源：GPT-Realtime-2 模型页、Realtime Translation Cookbook、GPT-Realtime-Whisper 模型页

Mistral OCR 4 把多模态文档模型做成可自托管入口

事实：Mistral AI 2026 年 6 月 23 日发布 OCR 4，称其新增 bounding boxes、block classification 和 inline confidence scores，支持 170 种语言、10 个语言组，并可在单个容器中运行，面向企业搜索、RAG 和领域检索管线；官方还强调自管理部署面向企业客户可用，以满足数据驻留、主权和合规要求。
我的判断：OCR 4 的价值不是 OCR 本身，而是把文档多模态模型从“抽文字工具”升级为“结构化知识入口”。Agent 读企业资料时，真正需要的是版面、表格、图片、置信度和位置关系，而不是一串丢失上下文的纯文本。
产业影响：企业 RAG、工业运维、金融合规和科研 Agent 会更依赖文档理解模型。端侧或私有化服务器如果能本地解析高价值文档，就能减少把敏感资料送到云端大模型的需求，也会拉动 CPU/GPU/NPU 上的批处理吞吐和存储带宽。
后续观察：看 OCR 4 的自托管容器是否披露硬件要求、吞吐、单页成本和复杂表格错误率；看企业是否把置信度和 bounding boxes 用于 Agent 审计，而不是只把 OCR 结果塞进向量库。
来源：Mistral OCR 4

Gemini Robotics-ER 1.6 把机器人模型输出变成可执行结构

事实：Google AI for Developers 文档显示，Gemini Robotics-ER 1.6 面向机器人场景，可接收图像、视频、音频输入和自然语言提示，理解物体、场景关系、任务指令、空间与时间关系，并输出点或 bounding boxes 等结构化坐标。文档还说明该模型具备 agentic 能力，可把复杂任务拆成子任务，并通过函数调用或代码执行来编排长程任务；thinking budget 可用于在低延迟和高准确率之间调节。
我的判断：机器人基础模型的关键不只是“能看懂场景”，而是能否把场景理解转成控制系统可消费的中间结构。点、框、子任务和函数调用，比自然语言解释更接近机器人主控和运动控制栈的接口。
产业影响：这会改变机器人端侧平台的模型分工：大模型负责空间语义、任务分解和工具编排，实时控制仍由本地控制器完成。Jetson、Qualcomm、Intel、地平线、黑芝麻和瑞芯微平台需要证明自己能承接这种“多模态理解 + 结构输出 + 本地控制”的混合负载。
后续观察：看 Robotics-ER 1.6 是否开放更多 SDK、模型卡和真实机器人案例；重点验证 structured output 在多视角、遮挡、动态物体和低光照场景下的稳定性，以及 thinking budget 对延迟和成功率的真实影响。
来源：Gemini Robotics-ER 1.6 文档

DeepSeek V4 Preview 把长上下文竞争拉回成本效率

事实：DeepSeek 官方 2026 年 4 月 24 日发布 V4 Preview，称其进入 1M context length 时代并已开源。页面列出 DeepSeek-V4-Pro 为 1.6T total、49B active params，DeepSeek-V4-Flash 为 284B total、13B active params，并说明网页和 API 已更新可用。
我的判断：V4 Preview 的信号不只是上下文窗口变长，而是 DeepSeek 继续把超长上下文和 MoE active 参数绑定到成本叙事上。Agent、代码仓库分析、长文档问答和多轮业务流程最怕的是上下文压缩损耗，1M context 如果价格和延迟可控，会减少一部分复杂 RAG 和摘要工程。
产业影响：超长上下文会提高云端推理与私有化服务器的显存、KV cache 和调度压力，也会影响端侧策略。很多端侧设备可能不直接运行 V4-Pro，但会通过小模型做前处理、本地过滤和隐私裁剪，再把更少但更长的上下文交给云端或边缘服务器。
后续观察：看 DeepSeek 是否披露 1M 上下文下的真实延迟、价格、丢针测试、工具调用表现和长会话稳定性；看 V4-Flash 的 13B active 路线是否被国内 Agent、代码助手和企业知识库产品规模采用。
来源：DeepSeek V4 Preview Release

反共识观察

第一，模型产业短期最重要的竞争可能不是“谁的通用模型更聪明”，而是“谁的模型更容易驻留在真实系统里”。MiniCPM-o 4.5 解决的是连续音视频交互，Gemma 4/LiteRT-LM 解决的是本地运行时，OpenAI 实时语音模型解决的是语音 Agent 控制，Mistral OCR 4 解决的是文档结构入口，Gemini Robotics-ER 1.6 解决的是机器人结构化输出，DeepSeek V4 解决的是超长上下文成本。它们不在同一张榜单上竞争，但都会影响客户到底买云服务、AI PC、边缘盒子还是机器人主控。

第二，小模型和专用模型可能比 frontier 模型更快改变端侧硬件需求。原因很简单：frontier 模型定义上限，但端侧采购需要确定功耗、内存、热设计、离线能力、SDK 适配和长期维护。一个 9B 全双工模型、一个 12B 本地 Agent 模型、一个面向机器人或文档结构的专用模型，可能比新的闭源超大模型更快进入产品规格书。这个判断可以验证：如果未来 1 到 4 周更多发布强调 GGUF、Ollama、LiteRT、OpenAI-compatible endpoint、single-container self-host、structured output、thinking budget 和 on-device latency，而不是只强调参数规模和综合榜单，说明模型竞争已经向驻留化迁移。

观察清单

MiniCPM-o 4.5 是否在真实手机、AI PC、机器人开发板和边缘盒子上披露低于 12GB RAM 的连续音视频交互实测。
Gemma 4 与 LiteRT-LM 是否被本地 coding agent、浏览器插件、移动 App 和企业桌面工具采用，尤其是 OpenAI-compatible endpoint 的生态兼容性。
GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 是否披露真实场景的打断、延迟、翻译稳定性和工具调用失败率。
Mistral OCR 4 的自托管容器是否给出硬件规格、吞吐、复杂表格准确率和置信度审计案例。
Gemini Robotics-ER 1.6 的 structured output 是否能被更多机器人控制栈直接消费，而不是停留在演示级空间理解。
DeepSeek V4 Preview 的 1M 上下文是否在 Agent、代码仓库和企业知识库中产生可复现的成本和质量优势。