Sonnet 5 让 Agent 成为默认选项

一组卡通人物把空白任务卡送进一条宽阔的 AI 工作流通道，周围有小型机器人助手 — Sonnet 5 值得关注的地方不只是模型升级，而是 Anthropic 正在把更多 Agent 工作推进默认通道。

Anthropic 于 2026 年 6 月 30 日发布了 Claude Sonnet 5，称其为目前 Agent 能力最强的 Sonnet 模型。官方表示，它可以制定计划、使用浏览器和终端等工具，并以不久前只有更大更贵模型才能达到的水平自主运行。同时，Sonnet 5 缩小了与 Opus 4.8 的差距，但仍属于价格较低的 Sonnet 级别。

在我看来，这次发布与其说是又一个榜单时刻，不如说是一次分发策略。Sonnet 5 是 Claude Free 和 Pro 的默认模型，也对 Max、Team 和 Enterprise 用户开放，同时在 Claude Code 和 Claude Platform 中可用。如果这套能力真的跑得稳，Agent AI 就不再只是少数高级用户的付费实验，而会成为很多人第一次接触到的普通模型。

答案快照

问题	我的看法
发生了什么变化？	Anthropic 推出 Claude Sonnet 5，在规划、工具调用、编程、计算机操作和知识工作方面都更强。
为什么重要	该模型已成为 Free 和 Pro 用户的默认选项，开发者也可以通过 API 调用 `claude-sonnet-5`。
如果好用，谁受益？	希望使用 Agent 工作流、但又不想直接上更贵的 Opus 或 Fable 级模型的开发者、运维、分析师和团队。
我的提醒	更低的 Token 单价不等于全部成本。团队仍然需要做迁移检查、Token 重新计数、工作流评估和拒绝处理。

默认选项才是真正的产品动作

官方页面将 Sonnet 5 定位为在推理、工具调用、编程和知识工作方面对 Sonnet 4.6 的大幅升级。同时表示，Anthropic 的成本性能曲线现在把 Sonnet 5 和 Opus 4.8 放进了一个更宽的范围：Sonnet 5 负责低成本场景，Opus 4.8 负责更高精度、更高价格的场景。

这是一个干净的产品叙事。但真正值得注意的是，Sonnet 5 并没有藏在某个特别研究项目后面。Anthropic 说任何人都可以在 Claude.ai 上与 Sonnet 5 对话，Sonnet 产品页面也列出了 Claude Platform、AWS、Google Cloud 和 Microsoft Foundry 的可用性，方便开发者构建 Agent。Axios 的报道则指出，这是一个价格更低的模型，目标是把 Agent 能力带给普通用户，同时比 Anthropic 最强大的系统具有更低的危险网络攻击风险。

我认为这才是真正的赌注：不是说每个任务都会突然变成自主执行，而是更多工作会以"委托"的方式展开。用户不只是向模型要一个答案，而是让它浏览网页、制定计划、编辑内容、运行工具、检查结果，然后继续推进。一旦这种行为进入默认模型，产品预期就会改变。

一个卡通团队把日常工作交给一个小型 AI 助手处理，而更大的高级系统在后台待命 — 转变的方向是从高级 Agent 演示走向日常委托：更多任务、更多用户，以及更多让小型工作流假设产生实际影响的场景。

Token 更便宜，但核算要跟上

Anthropic 为 Sonnet 5 推出了限时价格：2026 年 8 月 31 日之前，每百万输入 Token 2 美元，每百万输出 Token 10 美元。之后标准价格为每百万输入 Token 3 美元，每百万输出 Token 15 美元。Opus 4.8 的定价分别是每百万输入 Token 5 美元，每百万输出 Token 25 美元。

这个价差对 Agent 工作尤其重要，因为工具调用、重试、长上下文和验证都会快速消耗 Token。但我不会只看 headline 价格就算完预算。Claude Platform 文档指出，Sonnet 5 使用了新的 tokenizer，同样的文本可能会比 Sonnet 4.6 多出大约 30% 的 Token。发布公告的脚注说得更保守一些：同样的输入根据内容类型不同，大约会映射到 1.0 到 1.35 倍的 Token 数量。

这并不意味着定价有误导。而是说迁移过程需要可量化。如果一个团队原来的 prompt 算 200,000 Token，新 tokenizer 改变了这个数字，那么上下文预算、输出预算、延迟预期和账单都会跟着变。如果你的核算还绑在旧的 Token 计数上，即使模型更便宜也可能让你吃一惊。

卡通工程师在天秤上称量彩色 Token 方块与空白的迁移和评估卡片 — 权衡不只是价格与质量的取舍。它涉及价格、分词方式、effort 设置、工具行为，以及验证工作流仍然可用的成本。

Agent 能力需要工作流评估来验证

Anthropic 最有力的说法很务实：Sonnet 5 在多步骤任务上的执行更好。公告提到了规划、浏览器和终端工具调用、编程以及知识工作。同时还给出了 BrowseComp 和 OSWorld-Verified 的成本性能曲线，显示 Sonnet 5 在不同 effort 级别下都严格优于 Sonnet 4.6。

我更倾向于把这些当作证据，而不是定论。我查看过一个发布前的 Hacker News 讨论，观点已经分化：一部分人对更便宜的强力 Agent 感到乐观，另一部分人则怀疑 benchmark 是否足以说明实际工作表现。还有一个小型 HN 讨论认为，更低的模型成本可能掩盖了质量退步。这些讨论并不是对 Sonnet 5 的测量，也早于这次发布。但它们有价值，因为它们点出了认真的用户应该问的问题：这个模型能不能正确完成我的工作流，还是只是在发布宣传中看起来更强？

这种担忧在 arXiv 论文 "The SWE-Bench Illusion" 中有更正式的表达。作者认为，当前的评估协议可能夸大了软件工程能力，部分 benchmark 的提升可能来自记忆而非通用问题解决能力。这篇论文并非专门针对 Sonnet 5，但它提醒我们：不应该把任何编程 benchmark 单独当作采购决策的依据。

务实的做法虽然无聊但有用：跑工作流评估。拿你真正关心的任务形态来测试 Sonnet 5，而不仅仅是 toy prompt。包括混乱的代码仓库、隐藏测试、长时间循环、浏览器任务、权限边界，以及正确答案应该是"停下来"的场景。模型的价值不在于抽象意义上的"agentic"，而在于它是否让具体工作更安全、更快、更可验证。

安全也是卖点的一部分

Anthropic 表示，部署前的安全评估发现 Sonnet 5 整体比 Sonnet 4.6 更安全，幻觉率和迎合率更低，Agent 安全行为也更好。同时表示，Sonnet 5 的危险网络攻击能力远低于当前 Opus 模型，也没有刻意针对网络安全任务进行训练。

网络攻击方面的细节很重要，因为 Agent 工具会接触浏览器、终端、API 和代码。公告称 Sonnet 5 在一项 Firefox 漏洞评估中从未生成完整的可用 exploit，但部分成功率略高于 Sonnet 4.6。Anthropic 表示已默认启用网络安全防护。相关的网络安全防护页面指出，这些防护会阻止被禁止和高风险的网络安全使用，同时提供 Cyber Verification Program 以支持合法的防御性工作。

我喜欢安全被当作产品行为来对待，而不是一份单独的 PDF。但这也会带来运维工作。如果安全团队、平台提供商或开发者工具使用 Sonnet 5，就需要知道哪些请求会被拒绝、拒绝如何呈现、申诉流程是什么、防御性工作流是否有资格申请验证，以及如何避免悄悄绕过 guardrail 去用一个不太合适的模型。

一个卡通 AI 助手把空白任务卡穿过透明护栏，审核人员在审计检查点旁观察 — 一旦 Agent 行为成为默认工作流的基本单元，护栏、审计日志、拒绝处理和回退路径就变成了产品界面的一部分。

迁移不只是换一个模型 ID

文档称 Sonnet 5 是 Sonnet 4.6 的即插即用升级，但同一页面也列出了真实的行为变化。Adaptive thinking 默认开启。手动 extended thinking 会返回 400 错误。非默认采样参数如 temperature、top_p 和 top_k 也会返回 400 错误。Sonnet 5 支持 1M Token 上下文窗口和 128k 最大输出 Token，但新 tokenizer 改变了这个窗口能装下多少文本。

这正是那种号称"即插即用"、但实际上仍然需要发布计划的升级。工具定义和响应格式可能大体不变，但模型的思考行为、Token 预算和参数接受方式都可能改变生产环境的行为。一次只把 claude-sonnet-4-6 换成 claude-sonnet-5 的迁移，只做了最简单的部分，跳过了保护用户的部分。

我推荐的做法很简单：把模型升级当作软件依赖升级来对待。锁定旧版本行为，跑有代表性的任务，跟踪每个完成任务的成本，对比失败模式，然后决定哪些场景用 Sonnet 5 替代 Sonnet 4.6，哪些场景 Opus 仍然值得多花钱，哪些场景根本不应该让 Agent 自主运行。

我的结论

Claude Sonnet 5 之所以重要，是因为 Anthropic 正在尝试让能力足够强的 Agent 变得习以为常。这个模型比 Opus 便宜，覆盖面广，定位于那些以前只存在于 demo 中的日常工作：编程、浏览网页、制定计划、计算机操作和专业工作流。

我认为这一步是可信的，但我不会把这次发布当作放松工程纪律的理由。如果 Sonnet 5 好到足以成为默认的 Agent 层，那么负责任的回应既不是盲目采用，也不是全面怀疑。而是更好的评估、更精确的 Token 核算、更清晰的拒绝处理，以及在仍然重要的环节保持人类判断可见的工作流。

Sonnet 5 让 Agent 成为默认选项

答案快照

默认选项才是真正的产品动作

Token 更便宜，但核算要跟上

Agent 能力需要工作流评估来验证

安全也是卖点的一部分

迁移不只是换一个模型 ID

我的结论

许可

ZCode 把 Harness 做成了产品

韩国万亿美元 AI 豪赌，靠的是水和电

Claude Science：让实验笔记本成为产品

答案快照

默认选项才是真正的产品动作

Token 更便宜，但核算要跟上

Agent 能力需要工作流评估来验证

安全也是卖点的一部分

迁移不只是换一个模型 ID

我的结论

许可

相关新闻

ZCode 把 Harness 做成了产品

韩国万亿美元 AI 豪赌，靠的是水和电

Claude Science：让实验笔记本成为产品