核心观点
Agent 基础设施的竞争正在从“能接多少工具”转向“能不能把每一次连接、执行、审批、计费和恢复都记成可治理的账本”。OpenAI、GitHub、Anthropic、Cloudflare、Qwen Code 等近期动作共同说明,生产化 Agent 的瓶颈不是 MCP server 或工具数量,而是私网接入、沙箱时间、审批链路、会话迁移、长任务压缩和成本边界。一个可辩论的判断是:未来 1 到 2 个季度,企业会更愿意为 Agent 的权限账本、执行账本和成本账本付费,而不是为“自主性更强”的泛化叙事付费。验证指标是各平台是否继续把 tunnel、approval、sandbox billing、credit bucket、worktree、trace、runtime budget 和 human-in-the-loop 做成默认能力,而不是放在示例代码里。
本期主线
本期主线是 Agent 正在被拆成三本账:第一本是权限账,记录谁允许 Agent 访问哪些私有系统、MCP server、文件、浏览器、桌面和 SaaS;第二本是执行账,记录任务在哪个沙箱、工作树、会话、工具链或审批节点里运行;第三本是成本账,记录容器分钟数、Agent SDK 额度、长上下文压缩、工具调用次数和并发边界。
这会改变 Agent 与端侧 AI、企业云和开发者工具的连接方式。端侧和本地工作站不会只承担推理,而会承担更细粒度的受控执行、屏幕操作和私网访问;云端不会只卖模型 API,而会卖沙箱、隧道、审批、观测和会话持久化。反过来,如果一个 Agent 产品只能展示“能操作工具”,却不能解释谁授权、在哪里执行、失败后如何恢复、账单按什么粒度产生,它进入企业默认流程的速度会慢于模型能力本身。
重点进展
OpenAI 把 MCP 私网接入和容器计费放进平台账本
- 事实:OpenAI API changelog 显示,2026 年 6 月 1 日发布 Secure MCP Tunnel,企业客户可让 ChatGPT web、Codex、Responses API 和 AgentKit 通过客户自托管的
tunnel-client连接私有或本地 MCP server,而无需把这些 server 暴露到公网。同一 changelog 还披露,自 2026 年 6 月 2 日起,符合条件的 container sessions 改为按分钟计费,最低 5 分钟,不再按完整 20 分钟 session 收费。 - 我的判断:这两条合在一起看,说明 Agent 平台正在从“调用外部工具”进入“治理私有工具流量和执行资源”的阶段。私网隧道解决的是企业不愿把内部 MCP 直接上公网的问题,按分钟容器计费解决的是短任务沙箱成本颗粒度太粗的问题。
- 产业影响:企业 Agent 的真实部署会更多绕不开网络拓扑、私有工具目录、容器生命周期和账单归因。对 AI PC、边缘服务器和本地开发机来说,这不是坏消息:它们可以成为私网工具与云端模型之间的受控执行节点,而不是单纯被云 Agent 替代。
- 后续观察:未来 1 到 4 周要看 Secure MCP Tunnel 是否披露 tunnel-client 的部署形态、审计日志、断线恢复和多租户隔离;同时观察按分钟容器计费是否带来更多短生命周期 Agent 工作流。
- 来源:OpenAI API changelog
OpenAI 弃用 Agent Builder 与 Evals,低代码 Agent 正被代码化运行时挤压
- 事实:OpenAI deprecations 文档显示,2026 年 6 月 3 日已通知开发者 Evals platform 和 Agent Builder 将被弃用;Evals 既有 evals 将在 2026 年 10 月 31 日变为 read-only,Evals dashboard/API 计划于 2026 年 11 月 30 日关闭,Agent Builder 也计划于 2026 年 11 月 30 日关闭。官方迁移说明建议 Agent Builder 用户转向 Agents SDK 或 ChatGPT Workspace Agents。
- 我的判断:这不是一个简单的产品收缩,而是 OpenAI 对 Agent 产品形态的再分层:可重复、可测试、可部署的流程回到 SDK 和代码;面向普通员工的自然语言流程进入 Workspace Agents。中间形态的低代码画布如果不能产生可治理运行时,价值会被压缩。
- 产业影响:Agent 工程化可能不会沿着“人人拖拽一个自动化”的路线走到底,而会分化成两端:一端是开发者用 SDK、trace、sandbox 和 CI 管理,另一端是业务用户在受控工作区里发起任务。国内百炼、火山 AgentKit、百度智能体平台和企业 RPA 厂商也要回答同一个问题:低代码 Agent 产物能不能被版本化、回归测试和权限审计。
- 后续观察:关注 2026 年 11 月 30 日前 OpenAI 是否提供更清晰的 migration tooling,Agents SDK 是否补齐评测、版本管理和托管部署,以及 Workspace Agents 是否获得企业管理员级别的策略配置。
- 来源:OpenAI deprecations
GitHub Copilot cloud agent 开始从手动委派走向事件驱动
- 事实:GitHub 于 2026 年 6 月 2 日宣布 Copilot cloud agent 新增 automations,可按 schedule 或 repository events 自动运行,用于把重复任务交给 Agent。GitHub 同日还在 Copilot code review 中推出 Agent skills 与 MCP 支持的 public preview,让组织上下文、工具和标准进入代码审查;官方还提到新的 medium analysis tier 会把复杂 PR 路由到更高推理模型。
- 我的判断:代码 Agent 的下一步不是“更会聊天”,而是进入软件工程系统的事件流。排期触发、仓库事件触发、PR 审查触发和组织标准触发,会让 Agent 变成 CI/CD 与代码审查之间的新执行层。
- 产业影响:这会改变研发团队采购 Agent 的指标。真正有价值的不是单次补丁是否惊艳,而是 Agent 能否稳定处理重复维护任务、是否继承组织规范、是否在 PR 中留下可审查的依据,并且是否能把错误变成下次自动化的测试。
- 后续观察:关注 automations 支持哪些 repository events、失败重试和并发上限如何设计;同时看 Agent skills/MCP 在 code review 中是否能读取内部规范、缺陷库、API 文档和安全策略,而不是只做泛化建议。
- 来源:GitHub Copilot cloud agent automations、GitHub Copilot code review
Codex 26.608 把迁移与插件管理变成 Agent 客户端的入口战
- 事实:OpenAI Codex changelog 显示,2026 年 6 月 9 日 Codex app 26.608 新增 Migrate to Codex 流程,可从 Claude Code 和 Claude Cowork 导入受支持的设置;同时重做 plugins screen,加入独立 tab、marketplace 与 category filters、键盘导航和更清晰的安装动作,并扩展 Settings search 覆盖更多面板。
- 我的判断:Agent 客户端的竞争开始像 IDE 和浏览器一样争夺“工作环境迁移”。当用户积累了技能、插件、MCP、自动化、工作区设置和审批偏好后,迁移成本会成为平台壁垒;谁能把别的平台设置导入,谁就在争夺默认执行入口。
- 产业影响:这会推动 Agent 工具从单点 CLI 走向完整客户端生态。未来企业选型时,不只比较模型,也会比较插件市场、设置搜索、迁移工具、键盘流、跨平台常驻能力和工作区策略。对国内 Qwen Code、通义灵码、字节/火山、百度和 IDE 厂商来说,插件与迁移体验会决定开发者是否把 Agent 当成日常工作面。
- 后续观察:关注 Codex 迁移是否覆盖 MCP server、approval policy、skills、automations 和本地工作区配置;同时看第三方插件能否形成可审计安装、版本固定和企业白名单。
- 来源:OpenAI Codex changelog
Anthropic 把 Claude Agent SDK 用量从聊天额度中拆出来
- 事实:Claude Code Agent SDK 文档显示,自 2026 年 6 月 15 日起,Agent SDK 与
claude -p在订阅计划中的使用将消耗新的月度 Agent SDK credit,且该额度与交互式使用限制分开。该文档将 Agent SDK 定位为把 Claude Code 作为 library 构建 production AI agents。 - 我的判断:额度拆分意味着 Anthropic 也在把“聊天使用”和“Agent 执行”作为两种不同负载管理。交互式聊天可以按用户体验限流,Agent SDK 更接近后台任务、CI、批处理和长任务,必须有独立成本池。
- 产业影响:Agent 的商业模式会越来越像云资源,而不是单纯 SaaS 席位。企业需要预算的不只是模型 token,还包括 SDK credit、沙箱、工具调用、文件 I/O、长任务重试和审批等待。端侧和本地执行会因此获得成本比较窗口:哪些步骤必须上云,哪些步骤可以留在本地受控运行。
- 后续观察:关注 Anthropic 是否披露 Agent SDK credit 的具体消耗规则、企业套餐中的隔离方式、
claude -p与 IDE/CI 场景的额度边界,以及客户是否要求项目级或团队级用量归因。 - 来源:Claude Agent SDK overview
Qwen Code 把 Computer Use、飞书入口和长任务压缩打包进国内开源 Agent
- 事实:Qwen Code 2026 年 6 月 4 日周报显示,v0.17.0 和 v0.17.1 合计合入 60 多个 PR:Computer Use 变成内置能力,9 个桌面自动化工具以 deferred built-ins 注册,首次调用需要一次确认;新增飞书渠道,支持 WebSocket 和 Webhook,Agent 回复可用飞书交互卡片实时流式展示并支持停止;长任务压缩引擎重写,使用 9 段结构化摘要、最近 5 个文件与最近 3 张图片恢复,以避免单轮 Computer Use 长任务压缩后丢失视觉状态和原始意图。
- 我的判断:Qwen Code 的重要性不在“也能做桌面操作”,而在国内开源 Agent 正在补生产化细节:权限确认、协作入口、长上下文恢复、CJK 输入、运行时 MCP 增删、AUTO 拒绝可观测、session/agent/prompt ID 注入 shell 环境变量。这些都比单次演示更接近真实工作。
- 产业影响:国内 Agent 生态不一定只依赖闭源平台。Qwen Code 若持续把飞书、微信、MCP、Computer Use、trace、预算和压缩做扎实,会成为企业内部自动化、代码维护、桌面 RPA 和端侧工作站 Agent 的可改造底座。
- 后续观察:关注 Qwen Code 的 Computer Use 是否能在 macOS、Windows、Linux 上稳定复现,飞书渠道是否被企业团队真实使用,长任务压缩是否减少失败率,以及运行时 MCP 增删和 AUTO denial 数据是否进入企业审计。
- 来源:Qwen Code Weekly
Cloudflare 把人工审批从产品规则沉到 Agent 平台原语
- 事实:Cloudflare Agents 文档的 human-in-the-loop patterns 说明,Agent 可在继续执行前暂停并等待人工 approval、confirmation 或 input;文档区分两类模式:Workflow approval 适合需要持久、多步骤审批关卡的流程,关键 API 为
waitForApproval();MCP elicitation 适合 MCP server 在工具执行中请求结构化用户输入,关键 API 为elicitInput()。 - 我的判断:这条动态的价值在于把“人类确认”从应用层按钮下沉为运行时原语。生产 Agent 不可能全自动处理付款、删除、外发邮件、权限变更和数据导出,平台必须允许任务暂停数小时、数天甚至数周,并能保留上下文、升级审批和形成审计轨迹。
- 产业影响:Agent 的自动化上限将由审批系统决定,而不是由模型本身决定。Cloudflare、GitHub、OpenAI、AWS、Microsoft 和国内云厂商都会把 human-in-the-loop 做成平台能力;谁能把审批、MCP elicitation、DLP、日志和恢复统一起来,谁就更接近企业控制面。
- 后续观察:关注 Cloudflare 这些模式是否与 Sandboxes、Workers、Durable Objects、企业身份和日志系统形成默认模板;同时看 MCP elicitation 是否成为高风险工具调用的标准交互,而不是各家自定义弹窗。
- 来源:Cloudflare Agents docs
反共识观察
第一,Agent 的短期商业化可能不会奖励“最少人工介入”,而会奖励“最清楚地定义人工介入”。这听起来反直觉,因为市场常把 Agent 价值等同于更高自主性;但 OpenAI 的私网隧道与容器计费、GitHub 的事件驱动 Agent、Anthropic 的独立 SDK credit、Qwen Code 的一次确认和 AUTO 拒绝可观测、Cloudflare 的 waitForApproval() 都说明,生产系统最需要的是可解释的停顿点、授权点和成本点。验证方式是看未来几个月平台发布是否继续强调 approval、budget、trace、tunnel、sandbox、credit 和 audit,而不是只强调 agent autonomy。
第二,MCP server 数量可能继续增长,但企业价值会向“权限账本”集中。工具越多,Agent 误调用、越权调用、上下文膨胀和凭证散落的风险越高;因此真正的护城河不是工具目录,而是私网连接、OAuth/OBO、工具白名单、审批、DLP、账单归因和失败恢复。这个判断若成立,未来 Agent 平台宣传会越来越少说“我们有多少工具”,越来越多说“哪些工具被谁、在什么环境、以什么权限、花了多少钱调用”。
观察清单
- Secure MCP Tunnel 是否披露可审计的私网部署、断线恢复、权限边界和多租户管理方式。
- Agent Builder/Evals 迁移后,OpenAI Agents SDK 是否补齐可替代的评测、版本化和部署治理。
- Copilot cloud agent automations 是否支持更多仓库事件、失败重试、并发控制和组织级审计。
- Codex 迁移工具是否覆盖 skills、MCP、approval、automation、plugins 和 workspace settings,而不是只迁移表层偏好。
- Claude Agent SDK credit 是否形成项目级、团队级或企业级成本归因,让后台 Agent 与聊天用量彻底分账。
- Qwen Code 的 Computer Use、飞书渠道、运行时 MCP 管理和长任务压缩是否在国内企业内部形成可复用工作流。
- Cloudflare
waitForApproval()与 MCPelicitInput()是否成为 Agent 高风险动作的默认模板,并与日志、DLP、身份和沙箱策略打通。
评论