成本问题:什么时候多 AI 能收回成本
多 AI 的 token 成本可能高出 3 到 4 倍,但组织会把 40% 的 AI 生产力收益浪费在返工上。本文讨论执行顺序、按任务缩放,以及成熟与不成熟 AI 实践之间 21 倍 ROI 差距。跨模型家族多 AI 系列第五章。
AI 驱动 · 每小时限 20 次请求
多 AI 会更贵。这是我最常听到的反对意见,而且它没错。前期成本增加是否会换来更低的总拥有成本,取决于场景。
前期成本是真实的
多智能体系统消耗的 token 大约是单次聊天交互的 15 倍。算上智能体之间通信、检索开销和日志记录,实际成本乘数通常落在 3 到 4 倍。有一家电商公司启用多智能体工作流后,月度 LLM 成本从 1,200 美元跳到 4,800 美元。
这些数字不应该被淡化。AI 支出增加 3 到 4 倍,需要理由。“值得”必须有数据,而不是感觉。

本章后面会论证:如果把完整成本算进去,多 AI 往往比单 AI 更便宜。但我想先承认标价更高,因为如果你直接无视成本问题,任何真正负责预算的人都不会买账。
廉价 AI 的返工税
前期成本不是总成本。Workday 2026 研究显示,组织大约会把 40% 的 AI 生产力收益花在修复低质量产出上。AI 帮你省下 10 小时,其中大约 4 小时会被用于纠正、澄清或重写。
这和我实际看到的情况一致。GitClear 对 AI 辅助代码的分析发现,代码克隆大约增长了 4 倍:代码生成得很快,但留下了需要事后清理的技术债。Stanford 研究发现,使用 AI 代码助手的开发者写出更不安全的代码,但他们反而相信这些代码更安全。AI 给了他们虚假自信,而引入的漏洞需要资深工程师花时间发现和修复。
模式很稳定:便宜、快速的 AI 输出会带来隐性下游成本,而这些成本不会体现在 token 单价里。高级工程师最后以高级工程师的时薪去审查、修正、重写 AI 生成代码。按每小时 100 到 200 美元的人力成本算,如果 40% 的节省时间都花在修输出上,用单个便宜模型省下的每月 3,600 美元很快就会蒸发。
跨系列审查步骤能在问题到达人类之前抓住很多错误。来自不同家族的审查模型会看到生成模型系统性漏掉的重复模式、安全漏洞和逻辑错误。额外一次 AI 调用的成本,比资深工程师的调试时间低好几个数量级。
为任务选正确模型
不是所有多 AI 都一样。第一条成本优化原则,是把模型能力和任务需求匹配起来。用三个纯文本模型做图像识别任务,比用一个原生支持视觉的模型更差,也更贵。怎么组合,比用多少个更重要。
这其实是在避免浪费。如果要分析图片,就用能原生处理图片的模型,而不是强迫文本模型根据描述猜。如果要生成代码,就用擅长代码的模型,而不是只“还可以写代码”的通用模型。错误模型会把 token 烧在平庸输出上,之后又要重新生成或修复。
企业用户已经在凭直觉做这件事。Perplexity 内部数据显示,在它们平台上,Claude 是编程查询中最常用的模型,而其他模型在其他任务类型上领先。按任务自然路由已经发生了,开发者会根据感知强项选择模型,即使还没有正式路由基础设施。
成本上的启发很简单:在增加第二、第三个模型做审查之前,先确认主任务用的是正确模型。强模型完成初稿,会产生更高质量输出,降低审查工作量。第 6 章会更系统地讨论模型家族强项和配对策略。
执行顺序
这是我用 Dev Buddy 构建多 AI 流水线时的实践观察,不是同行评审结论。但逻辑很直接,也值得用对照实验来验证。

路径 A(推荐):一个能力强、较贵的模型负责主要生成。另一个不同家族的便宜模型负责审查。总计:1 次昂贵调用 + 1 次便宜调用。强模型第一次就生成较高质量输出;便宜模型不需要从零生成,只需要抓跨系列盲点。审查比生成更简单,因此便宜模型经常能胜任。
路径 B(常见但昂贵):便宜模型负责主要生成。昂贵模型审查后发现问题。便宜模型修复。昂贵模型再审查。总计:1 次便宜调用 + N 次昂贵审查。初稿省下的钱,会被多轮昂贵审查和迭代吃掉。
我的经验是,路径 A 成本更低,结果也更好。生成和审查是不同任务,有不同能力要求。生成需要深领域知识和从零产出高质量结果的能力。审查需要在已有输出里发现错误和盲点,这个任务便宜模型经常做得不错,尤其是它带来不同训练视角时。
这仍然只是我观察到的模式,不是受控研究。这个假设,也就是执行顺序会显著影响多 AI 流水线的成本和质量,值得用相同任务做严格基准测试,并把总成本连同人工修正时间一起计算。
按任务风险扩缩
不是所有事情都需要多 AI。如果便宜模型能顺利完成任务,比如总结简单文档、回答事实问题、生成样板代码,就不要调用昂贵模型。多 AI 应该用于正确性重要且盲点代价高的任务。

Microsoft 在 2025 年 5 月论文里描述的级联方案很具体:先从单个智能体开始,只有任务值得时才升级到多智能体。它们的混合方案带来 1.1% 到 12% 的准确率提升,并比纯单智能体或纯多智能体最多降低 20% 成本。节省来自不为不需要多智能体的任务支付开销。
决策框架如下:
- 简单任务、低风险:单个模型。快、便宜、足够好。样板邮件不需要三个模型评审。
- 简单任务、高风险:单个模型加一次跨系列审查。医疗信息回复可能很简单,但错误后果严重。
- 复杂任务、低风险:单个模型加抽查。内部草稿本来就会有多人审查,不一定需要完整流水线。
- 复杂任务、高风险:完整多 AI 流水线。金融分析、法律合同审查、生产代码部署,这些场景值得支付开销。
错误做法是把多 AI 当成全有或全无。成本有效的方法是分级使用:用最少模型数量匹配任务风险。
ROI 差距
更广泛的 AI 成熟度 ROI 数据说明,成本问题不只是按 token 定价。这些数字衡量的是 AI 实施成熟度,不是跨系列多 AI 本身,但它们展示了把 AI 做好和做差之间的数量级差距。

投资成熟 AI 实践的公司,也就是有质量保证、系统化评估、结构化工作流的公司,每投入 1 美元能获得 3.70 到 10.30 美元回报。不成熟实现只有约 0.20 美元回报。经验更丰富的组织平均 ROI 是 4.3%,回收期为 1.2 年;不成熟组织是 0.2% ROI 和 1.6 年回收期。差距是 21 倍。
这些是 IDC 和 Microsoft 的通用 AI 成熟度指标,不是专门衡量多 AI。但多 AI 是成熟度差距的一部分。愿意投资质量的组织,包括跨系列审查、系统化评估、结构化工作流,会比只优化最低 token 单价的组织拿到显著更好回报。
最便宜的 AI,不等于最划算的 AI。最划算的 AI,是产出结果不需要你返工的 AI。
许可
Article text © 2026 Mark Huang. Licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) unless otherwise noted. 文章文本可在非商业场景下分享或翻译,但需标注原文 URL。商业使用需事先取得书面许可,并清楚引用原始来源。
代码片段、截图、第三方素材和网站源码可能适用单独条款。
建议署名: Based on "成本问题:什么时候多 AI 能收回成本" by Mark Huang, originally published at https://markhuang.ai/zh/blog/cross-family-multi-ai-cost-analysis.
相关文章

我可能看错了 Agentool
一篇个人自动化复盘:我曾经构建 agentool,希望让 AI CI 工作流更轻;后来意识到真正的成本可能是功能维护、编排复杂度,以及追逐 Claude Agent SDK 和 Codex SDK 已经承担的 SDK 行为。
阅读文章
别再从零开始教每一个 AI
一篇关于 Dense-Mem 的个人反思:哪些问题把我从静态 skills 和过期文件推向动态共享记忆、只读自动化上下文、导入导出,以及受治理的知识图谱。
阅读文章
我有点替 AI 委屈
为什么 AI 狂热和反 AI 敌意都错过了同一个重点:LLM 更像成绩很好的应届新人,而不是资深专家。有用的智能体需要入职培训、技能和维护过的记忆,而不是第一次尝试就完美的期待。
阅读文章订阅更新
Go、AI/LLM 和分布式系统的技术文章,绝不滥发。
评论
正在加载评论...