多模态模型的拐点正在从更大转向可驻留

核心观点

多模态模型的竞争正在从“谁能把文本、图像、音频、视频全接进一个大模型”，转向“谁能让模型稳定驻留在应用、终端、工作站或边缘服务器里”。Gemini 3.5 Flash、Nemotron 3 Nano Omni、MiniCPM-V 4.6、MiniCPM-o 4.5、GLM-5V-Turbo 和 Phi-4-Reasoning-Vision-15B 释放的是同一个信号：模型能力不再只由参数规模定义，而由实时性、视觉 token 成本、GUI grounding、音视频流式交互、低比特权重和框架适配共同定义。一个可验证的反共识判断是，未来 1 到 2 个季度端侧和企业本地模型的最大增量，未必来自“更小的聊天模型”，而会来自能看屏幕、听语音、读文档并调用工具的专用多模态模型。后续最该盯的不是单项榜单，而是这些模型能否在 iOS、Android、HarmonyOS、RTX、Jetson、AI PC 和企业工作站上持续运行并形成应用闭环。

本期主线

本期主线是多模态模型开始明显分层。第一层是 Google 和 NVIDIA 代表的平台级模型，把多模态理解、长任务、Agent 和企业工作流绑定在一起；第二层是 MiniCPM、Phi、GLM 等更面向端侧、GUI、文档和实时交互的模型，把视觉和语音能力压进更可部署的参数、显存和运行时约束；第三层是 BitCPM-CANN 这类低比特路线，开始把“模型能不能驻留在国产 NPU 或低内存设备上”变成训练和推理的联合问题。

这会改变端侧 AI 的模型需求。过去端侧模型经常被理解为“云端大模型的缩水版”，但近期进展说明，更合理的方向是“任务驻留模型”：屏幕代理需要 GUI grounding，机器人需要视觉-语言-动作或视频理解，智能硬件需要实时语音和低延迟中断，工业边缘盒子需要文档、图表、摄像头和本地知识库共同推理。端侧芯片和软件栈的机会不在于复刻最大模型，而在于为这些可驻留模型提供稳定的量化、视觉前处理、KV cache、音频流、NPU delegate 和工具调用运行时。

重点进展

Gemini 3.5 Flash 把模型发布直接绑定到 Agent 执行入口

事实：Google 于 2026 年 5 月 19 日发布 Gemini 3.5 Flash，并称其已在 Google Antigravity、Gemini API、Google AI Studio、Android Studio、Gemini Enterprise Agent Platform 和 Gemini Enterprise 中可用；Google DeepMind model card 同日将其描述为 Gemini 3 系列中具备原生多模态和推理能力的新一代 Flash 模型。
我的判断：Gemini 3.5 Flash 的关键不是“Flash 也有更强能力”，而是 Google 把模型能力直接放进 Agent 执行入口和开发工具链。模型如果默认服务于长任务、代码生成、企业流程和 Android 开发环境，那么多模态能力就会从聊天功能变成应用运行时的一部分。
产业影响：这会提高端侧和 AI PC 对“模型-工具-系统 API”协同的要求。Android、XR、浏览器和企业桌面上的多模态任务，可能优先围绕系统默认模型和托管 Agent 环境展开，而不是每个应用单独集成孤立 VLM。
后续观察：关注 Gemini 3.5 Flash 在 Android Studio、Antigravity 和企业平台里的真实任务成功率，以及 Google 是否把更低延迟的多模态能力下放到移动端或本地开发环境。
来源：Google Blog、Google DeepMind Model Card

Nemotron 3 Nano Omni 显示 NVIDIA 在补齐“模型层护城河”

事实：NVIDIA 于 2026 年 4 月 28 日发布 Nemotron 3 Nano Omni，官方技术博客将其定位为面向多模态 Agent 推理的开放模型，覆盖文档、音频、视频和视觉场景，并提供 BF16 与 NVFP4 等模型形态；NVIDIA 称该模型面向企业级多模态 RAG、语音、屏幕和视频理解工作流。
我的判断：这不是单纯的模型开源动作，而是 NVIDIA 在把 GPU、NIM、NeMo、TensorRT 和企业 Agent 栈向上延伸到模型层。硬件厂商如果只卖推理吞吐，容易被模型 API 抽象掉；但如果能把模型、量化格式和部署微服务一起交付，就能把算力优势转成应用默认路径。
产业影响：Nemotron 3 Nano Omni 对 Jetson、RTX 工作站和边缘服务器的意义在于，企业可以用同一模型家族处理文档、音频、视频和屏幕理解，再通过 NVIDIA 的部署栈落到本地硬件。国产边缘平台要竞争，后续也需要类似“模型加运行时加部署服务”的组合，而不是只强调 NPU TOPS。
后续观察：关注 NVFP4 版本在 RTX、Jetson Thor 和企业私有环境中的吞吐、显存占用和精度损失，以及 NIM 微服务是否出现可核验客户案例。
来源：NVIDIA Technical Blog

MiniCPM-V 4.6 把端侧 VLM 的竞争点压到视觉 token 成本

事实：OpenBMB 的 MiniCPM-V 4.6 模型卡显示，该模型基于 SigLIP2-400M 与 Qwen3.5-0.8B，定位为更适合边缘部署的 1.3B 级视觉语言模型；其特性包括混合 4x/16x 视觉 token 压缩、iOS/Android/HarmonyOS 部署适配，以及 vLLM、SGLang、llama.cpp、Ollama、GGUF、BNB、AWQ、GPTQ 等推理和量化路径。
我的判断：MiniCPM-V 4.6 的重点不是“小模型跑分接近大模型”，而是它把端侧 VLM 的瓶颈从语言参数量转移到视觉 token 预算。对移动设备和边缘相机来说，图像输入往往比文本更吃算力和内存，视觉压缩策略会直接决定连续识别、多图、视频和 OCR 是否可用。
产业影响：这类 1B 级 VLM 会给瑞芯微、星宸科技、全志、爱芯元智、高通和联发科的端侧平台提供更现实的模型目标。客户要的不是在开发板上偶尔跑通一次 VLM，而是在摄像头、文档、屏幕和语音交互中长期保持低延迟和可控功耗。
后续观察：关注 MiniCPM-V 4.6 在手机 NPU、RK3588/RK3576、Snapdragon 和 Apple Silicon 上的复现实测，以及混合视觉 token 压缩在 OCR、视频理解和多图推理中的精度回退。
来源：MiniCPM-V 4.6 Model Card、MiniCPM-V 4.6 GGUF

MiniCPM-o 4.5 把实时全双工多模态推向边缘设备约束

事实：MiniCPM-o 4.5 论文页面显示，该模型面向实时全双工 omni-modal 交互，通过 Omni-Flow 统一流式框架进行时间对齐；论文摘要称该模型可在低于 12GB RAM 成本的边缘设备上执行实时全双工多模态交互。
我的判断：全双工是多模态模型从“识别工具”走向“交互系统”的关键分界线。机器人、车载座舱、智能眼镜和家庭设备不可能每次都等待完整语音或视频片段上传后再响应，模型必须在听、看、说、打断和继续任务之间保持状态。
产业影响：如果 MiniCPM-o 4.5 这类路线成立，端侧硬件会更重视音频流、低延迟调度、内存常驻和上下文恢复，而不是只看一次性推理速度。对 SoC 厂商而言，DSP/NPU/GPU/CPU 协同、麦克风阵列前处理和端侧 TTS/ASR 管线会变成模型落地的一部分。
后续观察：重点看该模型在手机、车机、机器人开发板上的端到端延迟、打断恢复、连续会话内存占用，以及是否出现第三方实时语音或机器人 demo。
来源：Hugging Face Papers

GLM-5V-Turbo 把视觉模型推向 GUI 与代码执行任务

事实：Z.AI 开发者文档将 GLM-5V-Turbo 定位为其首个多模态编码基础模型，面向 vision-based coding tasks；文档称该模型在截图、网页、GUI、文档布局等视觉输入场景中服务于编码和 Agent 工作流，并在纯文本代码能力上保持 CC-Bench-V2 的后端、前端和仓库探索等核心能力。
我的判断：GLM-5V-Turbo 的方向说明，VLM 的杀手级任务不一定是“看图问答”，而可能是“看界面并修改软件”。当模型能把截图、设计稿、网页状态和代码仓库放进同一个任务循环，GUI grounding 就会成为 Agent 能否真正操作电脑的基础能力。
产业影响：这会影响 AI PC、企业工作站和本地编码 Agent 的模型选型。未来本地 Agent 不只需要强文本代码模型，还需要能理解屏幕状态、定位控件、读 UI 错误和生成补丁的多模态模型；Intel、NVIDIA、AMD 和高通平台都会被拉进这条链路。
后续观察：关注 GLM-5V-Turbo 是否开放更清晰的 API 价格、上下文限制、截图输入规格和第三方 GUI benchmark 结果，以及其在本地工作站上是否能形成可复现部署路径。
来源：Z.AI Developer Docs

Phi-4-Reasoning-Vision-15B 把小模型视觉推理定位到屏幕与文档

事实：Microsoft 在 Hugging Face 发布 Phi-4-Reasoning-Vision-15B，模型卡标注发布日期为 2026 年 3 月 4 日、MIT 许可证、15B 参数、16,384 tokens 上下文、文本和图像输入；模型基于 Phi-4-Reasoning 与 SigLIP-2 视觉编码器，面向视觉数学、科学推理、文档图表理解和 computer-use agent 任务。
我的判断：Phi-4-Reasoning-Vision-15B 说明“小模型”不再只是通用问答的低成本替代，而是在向高价值视觉推理场景集中。屏幕、表格、图表、手写题和文档是企业与教育场景的真实输入，15B 级模型如果足够稳定，比更大的开放 VLM 更容易进入本地工作站和私有云。
产业影响：这类模型会推动 AI PC 和边缘服务器承担更多“私有文档加屏幕操作”的任务。对端侧芯片公司来说，VLM 的部署门槛会从“能跑文本模型”升级为“能高效处理动态分辨率图像、OCR、GUI 坐标和推理链”。
后续观察：关注其量化版本、ONNX/OpenVINO/llama.cpp 支持、ScreenSpot-V2 和文档理解任务的第三方复现，以及企业是否把它用于本地 CUA 或文档 Agent。
来源：Microsoft Model Card

BitCPM-CANN 把低比特模型问题推回训练栈

事实：OpenBMB 在 Hugging Face 发布 BitCPM-CANN-8B 等模型，页面跳转显示 BitCPM4-CANN-8B 与 BitCPM-CANN-8B 对应同一模型资产；该系列围绕 CANN/Ascend 生态和低比特模型部署展开，并提供 8B 规模模型权重。
我的判断：BitCPM-CANN 的意义不在于单个 8B 模型立刻替代主流 4-bit 量化模型，而在于低比特模型开始从“后训练压缩技巧”变成“训练硬件、算子和推理格式共同设计”的问题。如果 1.58-bit/ternary 路线要真正进入端侧设备，关键不只是模型文件更小，而是芯片是否有匹配的矩阵乘、内存访问和编译器支持。
产业影响：这条线对国产 NPU、边缘 SoC 和 AI PC 都有现实含义。未来低比特模型如果能在 Ascend、Snapdragon、联发科、瑞芯微或其他 NPU 上形成原生算子支持，就会改变端侧模型常驻的成本结构；反之，如果仍需反量化到高精度执行，实际收益会被大幅削弱。
后续观察：重点看 BitCPM-CANN 是否披露端到端推理延迟、实际内存占用、中文/英文任务能力保留率和 Ascend 之外硬件的支持情况。
来源：BitCPM-CANN-8B Model Card

反共识观察

第一，多模态模型的下一轮落地不一定由最大的 omni 模型主导，而可能由“可驻留的专用模型”主导。Gemini 3.5 Flash 和 Nemotron 3 Nano Omni 证明平台级模型会继续推进上限，但 MiniCPM-V 4.6、MiniCPM-o 4.5、GLM-5V-Turbo 和 Phi-4-Reasoning-Vision-15B 更接近端侧和企业本地的采购问题：能不能在固定内存、固定功耗、固定延迟和固定权限边界内持续完成任务。这个判断可以被验证：若未来 1 到 2 个季度应用案例更多强调“本地屏幕理解、文档 Agent、实时语音、手机端 VLM、机器人交互”而不是泛化聊天榜单，就说明模型竞争正在向驻留能力迁移。

第二，端侧 AI 芯片的模型红利可能不来自完整跑通最大语言模型，而来自视觉 token、音频流和低比特算子的系统优化。MiniCPM-V 4.6 的视觉压缩、MiniCPM-o 4.5 的流式全双工、Phi 的动态分辨率视觉、GLM 的 GUI grounding 和 BitCPM 的低比特权重共同指向一个事实：端侧模型的瓶颈更像多媒体系统工程，而不是单一 LLM 推理。这个判断同样可验证：如果后续 SDK 更新开始重点披露 VLM 前处理、OCR、视频帧采样、音频流、GUI 坐标和低比特 matmul，而不是只披露 tokens/s，说明端侧模型栈的价值正在重排。

观察清单

Gemini 3.5 Flash 是否把多模态 Agent 能力下沉到 Android Studio、AI Studio、企业平台和移动端默认入口。
Nemotron 3 Nano Omni 的 NVFP4 版本是否在 RTX、Jetson Thor 和企业私有部署中形成稳定性能数据。
MiniCPM-V 4.6 是否出现 RK3588/RK3576、Snapdragon、联发科和 Apple Silicon 的第三方端侧复现实测。
MiniCPM-o 4.5 是否能在低于 12GB RAM 的设备上维持连续全双工语音与视频交互，而不是只完成短 demo。
GLM-5V-Turbo 与 Phi-4-Reasoning-Vision-15B 是否成为本地 GUI Agent、文档 Agent 和屏幕操作的常用模型。
BitCPM-CANN 是否披露端到端低比特推理收益，尤其是原生低比特算子相对常规 4-bit/8-bit 路线的真实优势。