成本问题：什么时候多 AI 能收回成本

多 AI 会更贵。这是我最常听到的反对意见，而且它没错。前期成本增加是否会换来更低的总拥有成本，取决于场景。

前期成本是真实的

多智能体系统消耗的 token 大约是单次聊天交互的 15 倍。算上智能体之间通信、检索开销和日志记录，实际成本乘数通常落在 3 到 4 倍。有一家电商公司启用多智能体工作流后，月度 LLM 成本从 1,200 美元跳到 4,800 美元。

这些数字不应该被淡化。AI 支出增加 3 到 4 倍，需要理由。“值得”必须有数据，而不是感觉。

本章后面会论证：如果把完整成本算进去，多 AI 往往比单 AI 更便宜。但我想先承认标价更高，因为如果你直接无视成本问题，任何真正负责预算的人都不会买账。

廉价 AI 的返工税

前期成本不是总成本。Workday 2026 研究显示，组织大约会把 40% 的 AI 生产力收益花在修复低质量产出上。AI 帮你省下 10 小时，其中大约 4 小时会被用于纠正、澄清或重写。

这和我实际看到的情况一致。GitClear 对 AI 辅助代码的分析发现，代码克隆大约增长了 4 倍：代码生成得很快，但留下了需要事后清理的技术债。Stanford 研究发现，使用 AI 代码助手的开发者写出更不安全的代码，但他们反而相信这些代码更安全。AI 给了他们虚假自信，而引入的漏洞需要资深工程师花时间发现和修复。

模式很稳定：便宜、快速的 AI 输出会带来隐性下游成本，而这些成本不会体现在 token 单价里。高级工程师最后以高级工程师的时薪去审查、修正、重写 AI 生成代码。按每小时 100 到 200 美元的人力成本算，如果 40% 的节省时间都花在修输出上，用单个便宜模型省下的每月 3,600 美元很快就会蒸发。

跨系列审查步骤能在问题到达人类之前抓住很多错误。来自不同家族的审查模型会看到生成模型系统性漏掉的重复模式、安全漏洞和逻辑错误。额外一次 AI 调用的成本，比资深工程师的调试时间低好几个数量级。

为任务选正确模型

不是所有多 AI 都一样。第一条成本优化原则，是把模型能力和任务需求匹配起来。用三个纯文本模型做图像识别任务，比用一个原生支持视觉的模型更差，也更贵。怎么组合，比用多少个更重要。

这其实是在避免浪费。如果要分析图片，就用能原生处理图片的模型，而不是强迫文本模型根据描述猜。如果要生成代码，就用擅长代码的模型，而不是只“还可以写代码”的通用模型。错误模型会把 token 烧在平庸输出上，之后又要重新生成或修复。

企业用户已经在凭直觉做这件事。Perplexity 内部数据显示，在它们平台上，Claude 是编程查询中最常用的模型，而其他模型在其他任务类型上领先。按任务自然路由已经发生了，开发者会根据感知强项选择模型，即使还没有正式路由基础设施。

成本上的启发很简单：在增加第二、第三个模型做审查之前，先确认主任务用的是正确模型。强模型完成初稿，会产生更高质量输出，降低审查工作量。第 6 章会更系统地讨论模型家族强项和配对策略。

执行顺序

这是我用 Dev Buddy 构建多 AI 流水线时的实践观察，不是同行评审结论。但逻辑很直接，也值得用对照实验来验证。

路径 A（推荐）：一个能力强、较贵的模型负责主要生成。另一个不同家族的便宜模型负责审查。总计：1 次昂贵调用 + 1 次便宜调用。强模型第一次就生成较高质量输出；便宜模型不需要从零生成，只需要抓跨系列盲点。审查比生成更简单，因此便宜模型经常能胜任。

路径 B（常见但昂贵）：便宜模型负责主要生成。昂贵模型审查后发现问题。便宜模型修复。昂贵模型再审查。总计：1 次便宜调用 + N 次昂贵审查。初稿省下的钱，会被多轮昂贵审查和迭代吃掉。

我的经验是，路径 A 成本更低，结果也更好。生成和审查是不同任务，有不同能力要求。生成需要深领域知识和从零产出高质量结果的能力。审查需要在已有输出里发现错误和盲点，这个任务便宜模型经常做得不错，尤其是它带来不同训练视角时。

这仍然只是我观察到的模式，不是受控研究。这个假设，也就是执行顺序会显著影响多 AI 流水线的成本和质量，值得用相同任务做严格基准测试，并把总成本连同人工修正时间一起计算。

按任务风险扩缩

不是所有事情都需要多 AI。如果便宜模型能顺利完成任务，比如总结简单文档、回答事实问题、生成样板代码，就不要调用昂贵模型。多 AI 应该用于正确性重要且盲点代价高的任务。

Microsoft 在 2025 年 5 月论文里描述的级联方案很具体：先从单个智能体开始，只有任务值得时才升级到多智能体。它们的混合方案带来 1.1% 到 12% 的准确率提升，并比纯单智能体或纯多智能体最多降低 20% 成本。节省来自不为不需要多智能体的任务支付开销。

决策框架如下：

简单任务、低风险：单个模型。快、便宜、足够好。样板邮件不需要三个模型评审。
简单任务、高风险：单个模型加一次跨系列审查。医疗信息回复可能很简单，但错误后果严重。
复杂任务、低风险：单个模型加抽查。内部草稿本来就会有多人审查，不一定需要完整流水线。
复杂任务、高风险：完整多 AI 流水线。金融分析、法律合同审查、生产代码部署，这些场景值得支付开销。

错误做法是把多 AI 当成全有或全无。成本有效的方法是分级使用：用最少模型数量匹配任务风险。

ROI 差距

更广泛的 AI 成熟度 ROI 数据说明，成本问题不只是按 token 定价。这些数字衡量的是 AI 实施成熟度，不是跨系列多 AI 本身，但它们展示了把 AI 做好和做差之间的数量级差距。

投资成熟 AI 实践的公司，也就是有质量保证、系统化评估、结构化工作流的公司，每投入 1 美元能获得 3.70 到 10.30 美元回报。不成熟实现只有约 0.20 美元回报。经验更丰富的组织平均 ROI 是 4.3%，回收期为 1.2 年；不成熟组织是 0.2% ROI 和 1.6 年回收期。差距是 21 倍。

这些是 IDC 和 Microsoft 的通用 AI 成熟度指标，不是专门衡量多 AI。但多 AI 是成熟度差距的一部分。愿意投资质量的组织，包括跨系列审查、系统化评估、结构化工作流，会比只优化最低 token 单价的组织拿到显著更好回报。

最便宜的 AI，不等于最划算的 AI。最划算的 AI，是产出结果不需要你返工的 AI。

成本问题：什么时候多 AI 能收回成本

前期成本是真实的

廉价 AI 的返工税

为任务选正确模型

执行顺序

按任务风险扩缩

ROI 差距

许可

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论

前期成本是真实的

廉价 AI 的返工税

为任务选正确模型

执行顺序

按任务风险扩缩

ROI 差距

许可

相关文章

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论