多模态模型竞争正在转向本地常驻感知层

核心观点

多模态模型的下一阶段竞争，不只是“能看、能听、能推理”，而是能否以足够低的延迟和内存成本长期驻留在本地设备、机器人或企业工作站里。Gemma 4、MiniCPM-V、Nemotron 和 Cosmos 的共同方向，是把视觉、语音、视频、动作和文档理解压成可被 Agent 或机器人持续调用的感知层。反过来看，最大的模型未必最先转化为产业控制点；真正会影响端侧芯片和机器人主控选型的，可能是 1B 到 12B 级可量化、可本地更新、可挂接执行循环的模型。后续 1 到 4 周应重点验证这些模型是否进入真实 SDK、Ollama/llama.cpp/Jetson/移动端运行链路，而不只是停留在榜单和 demo。

本期主线

近期模型进展有一条清晰主线：多模态正在从“云端大模型能力扩展”转向“本地常驻感知组件”。Google 用 Gemma 4 12B、QAT 和 DiffusionGemma 同时压低内存、延迟和部署门槛；NVIDIA 用 Nemotron 3 Nano Omni 与 Cosmos 3 把多模态模型分别嵌入数字 Agent 和物理 AI；MiniCPM-V 4.6 则把端侧 VLM 的关键变量拉回手机、Ollama 和本地开发者入口。机器人论文侧的 DeMaVLA 与 Dream-Tac 进一步说明，模型不再只负责理解图像文本，而是在学习动作、未来状态和触觉反馈，这会逐步改变机器人控制栈和边缘算力需求。

重点进展

Gemma 4 12B 把本地多模态从轻量模型推进到笔记本级 Agent

事实：Google 于 2026 年 6 月 3 日发布 Gemma 4 12B，定位为统一、无独立多模态编码器的 12B 模型，支持视觉和音频输入，官方称可在 16GB VRAM 或统一内存的消费级笔记本本地运行，并提供 Apache 2.0 许可、MTP drafter 和 Hugging Face/Kaggle 权重。
我的判断：这类 12B 级模型的价值不是替代云端旗舰模型，而是让本地设备拥有“持续看屏幕、听音频、做轻量决策”的基础能力，成为桌面 Agent、AI PC 和边缘工作站的常驻感知层。
产业影响：如果 12B 多模态模型能稳定跑在 16GB 级设备上，AI PC、Jetson Orin/Thor 类边缘设备和高端移动 SoC 的竞争点会从单次 benchmark 转向长时间运行时的内存占用、散热和工具链适配。
后续观察：观察 Gemma 4 12B 在 llama.cpp、MLX、vLLM、SGLang 和 LiteRT-LM 中的实际吞吐；观察是否出现基于本地视觉/音频输入的企业桌面 Agent 案例。
来源：Google Blog - Introducing Gemma 4 12B

Gemma 4 QAT 说明端侧模型竞争正在进入内存格式层

事实：Google 于 2026 年 6 月 5 日发布 Gemma 4 QAT 模型，覆盖 Q4_0、GGUF、compressed tensors 和 mobile 格式；官方称 mobile 格式可将 Gemma 4 E2B 内存占用降到 1GB，文本-only 模式可低于 1GB，并针对静态激活、channel-wise 量化、部分 2-bit 量化和 KV cache 做优化。
我的判断：QAT 的产业意义大于单个模型分数，因为它把“能不能上手机、浏览器和低功耗板卡”从部署后补救，前移到训练和权重格式设计阶段。
产业影响：这会给联发科、高通、Intel、瑞芯微等端侧平台提出更具体的问题：NPU/CPU/GPU 后端能否吃下模型方定义的新量化格式，而不是只支持传统 INT8/INT4 demo。
后续观察：观察 Gemma 4 QAT mobile 权重是否进入 Android、Chrome、LiteRT-LM 和第三方手机 demo；观察国产 NPU SDK 是否开始声明支持类似 wNa8o8、KV cache 压缩或静态激活路径。
来源：Google Blog - Gemma 4 with quantization-aware training

DiffusionGemma 把低并发本地推理瓶颈指向解码范式

事实：Google 于 2026 年 6 月 10 日发布实验性开源模型 DiffusionGemma，采用 26B 总参数、3.8B 激活参数的 MoE 架构，探索文本扩散生成；官方称其在专用 GPU 上最高可实现 4 倍文本生成速度，H100 超过 1000 tokens/s、RTX 5090 超过 700 tokens/s，但同时说明其总体输出质量低于标准 Gemma 4，更适合研究和交互式本地工作流。
我的判断：DiffusionGemma 值得关注的不是“扩散模型会不会取代自回归模型”，而是它准确击中了本地低并发推理的痛点：单用户场景下，GPU 经常不是算不动，而是被逐 token 解码方式闲置。
产业影响：如果块状并行生成在代码补全、编辑、结构化文本和 GUI 操作中成立，未来端侧硬件的瓶颈会从内存带宽一边倒，转向更复杂的算力利用率、调度和模型格式支持。
后续观察：观察 DiffusionGemma 是否在代码编辑、表格填充、局部改写等低延迟任务中优于自回归小模型；观察 llama.cpp 官方支持到来后，在消费级 GPU 和边缘工作站上的真实体验。
来源：Google Blog - DiffusionGemma

Nemotron 3 Nano Omni 把多模态模型定位成 Agent 的感知子系统

事实：NVIDIA 发布 Nemotron 3 Nano Omni，称其为开放的 omni-modal reasoning model，可处理文本、图像、音频、视频、文档、图表和图形界面输入并输出文本；官方披露其为 30B-A3B hybrid MoE，具备 Conv3D、EVS 和 256K context，并于 2026 年 4 月 28 日通过 Hugging Face、OpenRouter、build.nvidia.com 等平台提供。
我的判断：NVIDIA 没有把它包装成一个万能助手，而是明确称其可作为 Agent 系统的“eyes and ears”，这比泛化聊天模型叙事更接近企业部署现实。
产业影响：多模态能力可能先以子 Agent 的方式进入工作流：负责看屏幕、读文档、听音频、提取状态，再把结果交给更强的规划模型。这样会增加边缘服务器和本地工作站上的中小型多模态推理需求。
后续观察：观察 Foxconn、Palantir、Docusign 等采用或评估方是否发布实际集成案例；观察 Nemotron 3 Nano Omni 在 Jetson、RTX PRO 和企业私有部署中的延迟与成本数据。
来源：NVIDIA Blog - Nemotron 3 Nano Omni

MiniCPM-V 4.6 进入 Ollama 说明端侧 VLM 正在争夺本地默认入口

事实：OpenBMB 的 MiniCPM-V 仓库显示，2026 年 6 月 25 日 MiniCPM-V 4.6 已合入 Ollama 官方模型库；项目说明称 MiniCPM-V 4.6 为 1.3B 参数模型，面向图像、视频和文本理解，通过 intra-ViT early compression 将视觉编码计算成本降低超过 50%，并开放 iOS、Android、HarmonyOS 等端侧适配代码。
我的判断：MiniCPM-V 4.6 的关键不在“1.3B 小模型又刷了什么榜”，而在它开始出现在 Ollama 这类本地默认分发入口里。对开发者来说，可一条命令运行的模型，往往比能力更强但部署复杂的模型更容易形成事实标准。
产业影响：这对瑞芯微、全志、星宸、爱芯元智等端侧平台是现实压力：本地 VLM 生态的入口可能先由 Ollama、GGUF、移动端 demo 和开源适配层定义，再倒逼芯片 SDK 去兼容。
后续观察：观察 MiniCPM-V 4.6 是否出现 RK3588、Jetson Orin Nano、Android 旗舰 SoC 和 AI PC 的稳定实测；观察 Ollama 下载量和第三方应用是否快速增长。
来源：OpenBMB GitHub - MiniCPM-V

Cosmos 3 把物理 AI 模型从拆分管线推向统一世界模型

事实：NVIDIA 在 Hugging Face 于 2026 年 6 月 1 日发布 Cosmos 3 介绍，称其为面向 Physical AI 的开放 omni-model，包含 Cosmos 3 Super 和 Nano、Diffusers 集成、后训练脚本和开放合成数据生成数据集；文章称 Cosmos 3 统一了世界生成、物理推理和动作生成。
我的判断：Cosmos 3 的方向说明机器人模型竞争正在从单一 VLM 或策略网络，转向能同时处理未来视频、物理因果和动作序列的世界模型底座。
产业影响：这会把机器人计算平台的需求推向“两层算力”：训练和仿真侧需要大 GPU 集群，部署侧则需要能运行压缩后世界模型或策略头的边缘 GPU/NPU。Jetson、DRIVE 和机器人主控平台会因此更强调视频生成/理解、动作预测和仿真到现实工具链。
后续观察：观察 Cosmos 3 Nano 是否有可复现的 Jetson 或边缘部署路径；观察机器人公司是否用其开放 SDG 数据集补充长尾场景训练。
来源：Hugging Face - NVIDIA Cosmos 3

DeMaVLA 说明机器人模型开始奖励真实失败数据

事实：arXiv 于 2026 年 6 月 16 日发布 DeMaVLA v2，论文提出面向可泛化柔性物体操作的 VLA 基础模型，采用 VLM backbone 和 action expert，通过剪枝 action expert 的隔层 transformer 降低训练与推理成本，并在约 5000 小时真实双臂演示数据上预训练，再结合人类参与的 DAgger 纠错轨迹做后训练。
我的判断：DeMaVLA 的产业信号不是“机器人会叠衣服”，而是失败纠错数据开始成为模型资产。相比纯视频学习，真实机器人失败后的人工纠偏轨迹更接近量产机器人的闭环改进方式。
产业影响：机器人本体厂商和算法公司会更重视数据采集工位、远程接管、纠错标注和低成本回放系统；端侧计算平台也需要支持把失败片段、传感器状态和动作 token 高效记录下来。
后续观察：观察 DeMaVLA 是否开源权重、数据或真实评测协议；观察类似 DAgger 纠错闭环是否进入人形、机械臂和家用机器人产品路线图。
来源：arXiv - DeMaVLA

Dream-Tac 把触觉纳入世界行动模型，挑战视觉万能假设

事实：arXiv 近期发布 Dream-Tac，提出统一触觉世界行动模型，联合预测未来视觉观测、未来触觉信号和机器人动作，并加入 contact-aware attention bias；论文指出接触丰富的操作任务中，仅依赖视觉的世界行动模型容易遗漏关键物理交互线索。
我的判断：这条路线的反共识价值在于，它削弱了“摄像头加 VLM 就能解决大部分机器人操作”的乐观假设。对抓取、插拔、整理、装配这类任务，触觉可能不是可选传感器，而是模型闭环的一部分。
产业影响：如果触觉世界模型被验证有效，机器人硬件会重新评估灵巧手、力控、触觉皮肤和边缘同步采样的价值；端侧芯片也需要处理更高频、更低延迟的多传感器融合，而不是只优化图像 token。
后续观察：观察 Dream-Tac 在真实接触任务中的泛化范围；观察硬件厂商是否开始把触觉数据接口和时间同步能力写进机器人开发套件。
来源：arXiv - Dream-Tac

反共识观察

第一，未来 3 个月内，最能影响端侧 AI 产业链的多模态模型，可能不是参数最大的闭源模型，而是能在 Ollama、llama.cpp、LiteRT-LM、MLX、Jetson 和手机端稳定分发的中小模型。原因很直接：端侧厂商真正需要的是可复现部署路径、可预测内存和可解释延迟，而不是一次性云端能力展示。

第二，机器人基础模型未必会沿着“更大 VLA 一统控制栈”的方向推进。DeMaVLA 和 Dream-Tac 同时指向一个更工程化的路线：模型需要吸收真实失败、触觉变化、未来状态预测和动作纠偏，这些数据资产来自现场闭环，而不是单纯来自互联网规模的图文视频预训练。

观察清单

观察 Gemma 4 12B、Gemma 4 QAT、MiniCPM-V 4.6 是否在 Jetson、AI PC、Android 旗舰机和国产边缘板卡上出现稳定第三方实测。
观察 DiffusionGemma 是否在低并发、本地交互式任务中形成可复现优势，尤其是代码补全、局部改写、结构化文本和 GUI Agent。
观察 Nemotron 3 Nano Omni、Cosmos 3 是否从模型发布进入企业 Agent、机器人仿真和边缘部署案例，而不只是作为平台展示。
观察机器人模型论文是否开始公开失败数据、纠错轨迹、触觉数据和真实评测协议；这比单次演示视频更能验证产业化进度。