跳转到主要内容

Sonnet 5 让 Agent 成为默认选项

Anthropic 表示 Claude Sonnet 5 把更强的 Agent 能力带进了普通 Claude 套餐;在我看来,真正的考验在于迁移纪律、成本核算和工作流评估。

Anthropic5 分钟阅读
分享:
AI 驱动

AI 驱动 · 每小时限 20 次请求

一组卡通人物把空白任务卡送进一条宽阔的 AI 工作流通道,周围有小型机器人助手
Sonnet 5 值得关注的地方不只是模型升级,而是 Anthropic 正在把更多 Agent 工作推进默认通道。

Anthropic 于 2026 年 6 月 30 日发布了 Claude Sonnet 5,称其为目前 Agent 能力最强的 Sonnet 模型。官方表示,它可以制定计划、使用浏览器和终端等工具,并以不久前只有更大更贵模型才能达到的水平自主运行。同时,Sonnet 5 缩小了与 Opus 4.8 的差距,但仍属于价格较低的 Sonnet 级别。

在我看来,这次发布与其说是又一个榜单时刻,不如说是一次分发策略。Sonnet 5 是 Claude Free 和 Pro 的默认模型,也对 Max、Team 和 Enterprise 用户开放,同时在 Claude Code 和 Claude Platform 中可用。如果这套能力真的跑得稳,Agent AI 就不再只是少数高级用户的付费实验,而会成为很多人第一次接触到的普通模型。

答案快照

问题我的看法
发生了什么变化?Anthropic 推出 Claude Sonnet 5,在规划、工具调用、编程、计算机操作和知识工作方面都更强。
为什么重要该模型已成为 Free 和 Pro 用户的默认选项,开发者也可以通过 API 调用 claude-sonnet-5
如果好用,谁受益?希望使用 Agent 工作流、但又不想直接上更贵的 Opus 或 Fable 级模型的开发者、运维、分析师和团队。
我的提醒更低的 Token 单价不等于全部成本。团队仍然需要做迁移检查、Token 重新计数、工作流评估和拒绝处理。

默认选项才是真正的产品动作

官方页面将 Sonnet 5 定位为在推理、工具调用、编程和知识工作方面对 Sonnet 4.6 的大幅升级。同时表示,Anthropic 的成本性能曲线现在把 Sonnet 5 和 Opus 4.8 放进了一个更宽的范围:Sonnet 5 负责低成本场景,Opus 4.8 负责更高精度、更高价格的场景。

这是一个干净的产品叙事。但真正值得注意的是,Sonnet 5 并没有藏在某个特别研究项目后面。Anthropic 说任何人都可以在 Claude.ai 上与 Sonnet 5 对话,Sonnet 产品页面也列出了 Claude Platform、AWS、Google Cloud 和 Microsoft Foundry 的可用性,方便开发者构建 Agent。Axios 的报道则指出,这是一个价格更低的模型,目标是把 Agent 能力带给普通用户,同时比 Anthropic 最强大的系统具有更低的危险网络攻击风险。

我认为这才是真正的赌注:不是说每个任务都会突然变成自主执行,而是更多工作会以"委托"的方式展开。用户不只是向模型要一个答案,而是让它浏览网页、制定计划、编辑内容、运行工具、检查结果,然后继续推进。一旦这种行为进入默认模型,产品预期就会改变。

一个卡通团队把日常工作交给一个小型 AI 助手处理,而更大的高级系统在后台待命
转变的方向是从高级 Agent 演示走向日常委托:更多任务、更多用户,以及更多让小型工作流假设产生实际影响的场景。

Token 更便宜,但核算要跟上

Anthropic 为 Sonnet 5 推出了限时价格:2026 年 8 月 31 日之前,每百万输入 Token 2 美元,每百万输出 Token 10 美元。之后标准价格为每百万输入 Token 3 美元,每百万输出 Token 15 美元。Opus 4.8 的定价分别是每百万输入 Token 5 美元,每百万输出 Token 25 美元。

这个价差对 Agent 工作尤其重要,因为工具调用、重试、长上下文和验证都会快速消耗 Token。但我不会只看 headline 价格就算完预算。Claude Platform 文档指出,Sonnet 5 使用了新的 tokenizer,同样的文本可能会比 Sonnet 4.6 多出大约 30% 的 Token。发布公告的脚注说得更保守一些:同样的输入根据内容类型不同,大约会映射到 1.0 到 1.35 倍的 Token 数量。

这并不意味着定价有误导。而是说迁移过程需要可量化。如果一个团队原来的 prompt 算 200,000 Token,新 tokenizer 改变了这个数字,那么上下文预算、输出预算、延迟预期和账单都会跟着变。如果你的核算还绑在旧的 Token 计数上,即使模型更便宜也可能让你吃一惊。

卡通工程师在天秤上称量彩色 Token 方块与空白的迁移和评估卡片
权衡不只是价格与质量的取舍。它涉及价格、分词方式、effort 设置、工具行为,以及验证工作流仍然可用的成本。

Agent 能力需要工作流评估来验证

Anthropic 最有力的说法很务实:Sonnet 5 在多步骤任务上的执行更好。公告提到了规划、浏览器和终端工具调用、编程以及知识工作。同时还给出了 BrowseComp 和 OSWorld-Verified 的成本性能曲线,显示 Sonnet 5 在不同 effort 级别下都严格优于 Sonnet 4.6。

我更倾向于把这些当作证据,而不是定论。我查看过一个发布前的 Hacker News 讨论,观点已经分化:一部分人对更便宜的强力 Agent 感到乐观,另一部分人则怀疑 benchmark 是否足以说明实际工作表现。还有一个小型 HN 讨论认为,更低的模型成本可能掩盖了质量退步。这些讨论并不是对 Sonnet 5 的测量,也早于这次发布。但它们有价值,因为它们点出了认真的用户应该问的问题:这个模型能不能正确完成我的工作流,还是只是在发布宣传中看起来更强?

这种担忧在 arXiv 论文 "The SWE-Bench Illusion" 中有更正式的表达。作者认为,当前的评估协议可能夸大了软件工程能力,部分 benchmark 的提升可能来自记忆而非通用问题解决能力。这篇论文并非专门针对 Sonnet 5,但它提醒我们:不应该把任何编程 benchmark 单独当作采购决策的依据。

务实的做法虽然无聊但有用:跑工作流评估。拿你真正关心的任务形态来测试 Sonnet 5,而不仅仅是 toy prompt。包括混乱的代码仓库、隐藏测试、长时间循环、浏览器任务、权限边界,以及正确答案应该是"停下来"的场景。模型的价值不在于抽象意义上的"agentic",而在于它是否让具体工作更安全、更快、更可验证。

安全也是卖点的一部分

Anthropic 表示,部署前的安全评估发现 Sonnet 5 整体比 Sonnet 4.6 更安全,幻觉率和迎合率更低,Agent 安全行为也更好。同时表示,Sonnet 5 的危险网络攻击能力远低于当前 Opus 模型,也没有刻意针对网络安全任务进行训练。

网络攻击方面的细节很重要,因为 Agent 工具会接触浏览器、终端、API 和代码。公告称 Sonnet 5 在一项 Firefox 漏洞评估中从未生成完整的可用 exploit,但部分成功率略高于 Sonnet 4.6。Anthropic 表示已默认启用网络安全防护。相关的网络安全防护页面指出,这些防护会阻止被禁止和高风险的网络安全使用,同时提供 Cyber Verification Program 以支持合法的防御性工作。

我喜欢安全被当作产品行为来对待,而不是一份单独的 PDF。但这也会带来运维工作。如果安全团队、平台提供商或开发者工具使用 Sonnet 5,就需要知道哪些请求会被拒绝、拒绝如何呈现、申诉流程是什么、防御性工作流是否有资格申请验证,以及如何避免悄悄绕过 guardrail 去用一个不太合适的模型。

一个卡通 AI 助手把空白任务卡穿过透明护栏,审核人员在审计检查点旁观察
一旦 Agent 行为成为默认工作流的基本单元,护栏、审计日志、拒绝处理和回退路径就变成了产品界面的一部分。

迁移不只是换一个模型 ID

文档称 Sonnet 5 是 Sonnet 4.6 的即插即用升级,但同一页面也列出了真实的行为变化。Adaptive thinking 默认开启。手动 extended thinking 会返回 400 错误。非默认采样参数如 temperaturetop_ptop_k 也会返回 400 错误。Sonnet 5 支持 1M Token 上下文窗口和 128k 最大输出 Token,但新 tokenizer 改变了这个窗口能装下多少文本。

这正是那种号称"即插即用"、但实际上仍然需要发布计划的升级。工具定义和响应格式可能大体不变,但模型的思考行为、Token 预算和参数接受方式都可能改变生产环境的行为。一次只把 claude-sonnet-4-6 换成 claude-sonnet-5 的迁移,只做了最简单的部分,跳过了保护用户的部分。

我推荐的做法很简单:把模型升级当作软件依赖升级来对待。锁定旧版本行为,跑有代表性的任务,跟踪每个完成任务的成本,对比失败模式,然后决定哪些场景用 Sonnet 5 替代 Sonnet 4.6,哪些场景 Opus 仍然值得多花钱,哪些场景根本不应该让 Agent 自主运行。

我的结论

Claude Sonnet 5 之所以重要,是因为 Anthropic 正在尝试让能力足够强的 Agent 变得习以为常。这个模型比 Opus 便宜,覆盖面广,定位于那些以前只存在于 demo 中的日常工作:编程、浏览网页、制定计划、计算机操作和专业工作流。

我认为这一步是可信的,但我不会把这次发布当作放松工程纪律的理由。如果 Sonnet 5 好到足以成为默认的 Agent 层,那么负责任的回应既不是盲目采用,也不是全面怀疑。而是更好的评估、更精确的 Token 核算、更清晰的拒绝处理,以及在仍然重要的环节保持人类判断可见的工作流。

许可

新闻文本 © 2026 Mark Huang。 新闻文本可在非商业场景下分享或翻译,但需署名并链接到 https://markhuang.ai/zh/news/claude-sonnet-5-default-agent-lane.

建议署名: 基于「Sonnet 5 让 Agent 成为默认选项」(作者:Mark Huang),原文发布于 https://markhuang.ai/zh/news/claude-sonnet-5-default-agent-lane。