三个臭皮匠,顶个诸葛亮:让便宜模型协同工作
一堂来自中文俗语“三个臭皮匠,顶个诸葛亮”的个人 AI 架构课:为什么便宜模型会被巨大提示词压垮,以及聚焦的专家会话、编排、综合和温度控制如何让它们变得有用。
AI 驱动 · 每小时限 20 次请求

我思考 AI 架构时,经常回到一句中文老话:
三个臭皮匠,顶个诸葛亮
字面意思是,三个普通皮匠加起来可以顶一个诸葛亮。诸葛亮是三国时期的传奇谋士,后来几乎成了”超凡智慧”的代称。这句话真正讲的不是皮匠,而是视角汇聚。三个普通人如果协调得好,可以和一个天才竞争。
当 token 成本成为架构讨论的一部分后,这句话突然变得非常实际。
很长一段时间里,遇到困难 AI 工作流,默认答案很简单:用你负担得起的最强模型。跑 Sonnet,跑 Opus,跑最好的 GPT。如果输出漏东西,就加更多指令。最后提示词变成一大团:需求、示例、边界情况、日志、约束,还有一堆“请小心”全塞进一个请求里。
它看起来合理。但这也是便宜模型开始撑不住的地方。
巨大提示词陷阱

Haiku 级别的小模型很有用。它们快,便宜到可以反复调用,也擅长窄任务。但它们不是缩小版的 Opus。
和 Sonnet 相比,小模型更容易漏掉长提示词里的第二、第三个约束。它可能遵守主指令,却忘掉例外。和 Opus 相比,差距更明显:长线规划、冲突解决和自检能力都弱一些。当它犯下一个看似合理的错误时,它常常会把错误包装得更像回事,而不是发现错误。
这并不意外。错误不在于 Haiku 会漏东西,而在于我们把工作流设计得好像它不该漏。
第一步改进:把任务和规则分开
我学到的第一个修正非常简单:不要把所有东西都塞进用户提示词。
清晰的系统提示词会改变任务形状。系统提示词定义角色、优先级、约束、输出规范和评估标准。用户提示词承载具体的任务内容。这个分离很重要,因为模型不必再猜哪些是永久规则,哪些是一次性数据。
对弱模型来说,这个差别很大。聚焦的系统提示词像护栏一样先限定判断方式。例如:“你是需求审计者。只检查缺失的验收标准。以 JSON 返回发现的问题。”这比在一段很长的提示词第十二段里写“也请像需求审计者一样工作”更容易执行。
原因很具体:小模型同时处理指令的带宽更小。当规则、示例、数据和期望输出混在一起时,模型必须把注意力摊开。系统提示词先锚定行为,再让任务数据流过它。
这不会让弱模型突然变聪明,但会让任务变窄。
真正的架构:三个皮匠

专业答案不是“写一个更好的巨大提示词”,而是“别让一个会话同时扮演所有职业”。
把工作拆开。
一个会话检查需求,另一个找边界情况,第三个抽取事实,下一个找矛盾,最后一个重写语气。每个会话都有自己的系统提示词和窄任务提示词。它们不需要都是诸葛亮,只需要在自己负责的小角落足够可靠。
然后用一个最终综合会话合并结果。
这就是谚语变成架构的地方。三个职责明确的小模型,可以覆盖比一个过载模型更大的表面积。提升不是来自假装弱模型很强,而是减少每个模型可能忘掉的事情数量。
当子任务相互独立时,并行很有用:安全评审、UX 评审、成本评审、事实抽取。当一个输出会变成下一个输入时,链式处理更合适:分类、抽取、验证、总结。不管哪种方式,关键动作都一样:把一个宽泛判断,换成多个狭窄判断。
中心辐射式版本

还有一个我喜欢的模式:中心辐射式。
一个会话担任编排器。它不直接解决整个问题,而是决定哪个专门智能体应该检查哪一部分。它只传递相关上下文,收集回复,并在输出冲突时追问。最后再综合答案。
当工作不是干净流水线时,这个模式很有用。真实任务很乱。审查智能体可能发现缺失需求,缺失需求又需要回到规划智能体。成本智能体可能反对当前架构。编排器让状态继续流动,而不要求每个专门智能体理解整个世界。
诀窍是保持编排器诚实。它应该传结构化摘要,而不是含糊感觉。它应该保留分歧,而不是把分歧掩盖过去。当外围智能体给出冲突答案时,最终综合应该说出来,或者升级给更强模型。
便宜模型在这里有用,因为它们变成传感器。每个模型从一个特定角度观察。编排器不需要它们完美,只需要足够的覆盖面,让重要遗漏更不容易发生。
最后一个旋钮:温度

温度不能治好弱推理,但它是让流水线少一点混乱的最简单旋钮之一。
对于抽取、验证、分类、综合和评审,我希望温度低。可预测性比新奇更重要。如果相同输入每次产生不同模式或不同判断,工作流会很难调试。
对于创意工作,我会调高它。命名、头脑风暴、比喻、初稿文案、视觉想法,这些任务受益于变化。我不希望模型每次都返回最安全的平均答案。
错误在于所有地方都用同一个温度。架构任务需要不同模式。检查合规的专门智能体应该无聊;提出博客标题的专门智能体可以松一点;编排器通常应该保守。
这就是我反复学到的课:不要把所有精力放在寻找一次完美模型调用上。设计工作,让不完美的调用仍然有用。
三个皮匠不会神奇地变成诸葛亮。但如果每个人都知道自己该看什么,并且有一个冷静的角色把结果合起来,系统就可以惊人地接近。
许可
Article text © 2026 Mark Huang. Licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) unless otherwise noted. 文章文本可在非商业场景下分享或翻译,但需标注原文 URL。商业使用需事先取得书面许可,并清楚引用原始来源。
代码片段、截图、第三方素材和网站源码可能适用单独条款。
建议署名: Based on "三个臭皮匠,顶个诸葛亮:让便宜模型协同工作" by Mark Huang, originally published at https://markhuang.ai/zh/blog/three-cobblers-one-zhuge-liang-ai-architecture.
相关文章

我可能看错了 Agentool
一篇个人自动化复盘:我曾经构建 agentool,希望让 AI CI 工作流更轻;后来意识到真正的成本可能是功能维护、编排复杂度,以及追逐 Claude Agent SDK 和 Codex SDK 已经承担的 SDK 行为。
阅读文章
别再从零开始教每一个 AI
一篇关于 Dense-Mem 的个人反思:哪些问题把我从静态 skills 和过期文件推向动态共享记忆、只读自动化上下文、导入导出,以及受治理的知识图谱。
阅读文章
我有点替 AI 委屈
为什么 AI 狂热和反 AI 敌意都错过了同一个重点:LLM 更像成绩很好的应届新人,而不是资深专家。有用的智能体需要入职培训、技能和维护过的记忆,而不是第一次尝试就完美的期待。
阅读文章订阅更新
Go、AI/LLM 和分布式系统的技术文章,绝不滥发。
评论
正在加载评论...