集成智能背后的科学
群体智慧遇上 AI:多样化 LLM 集成超过 67% 的单一模型,F1 分数从 0.55 提升到 0.80 以上,而 56.9% 的最佳方案来自最弱模型。跨模型家族多 AI 系列第二章。
AI 驱动 · 每小时限 20 次请求
群体胜过个体并不是新想法。它是决策科学里最老的发现之一。新的是:这个结论同样适用于 AI 模型,而且让它成立的关键成分仍然是同一个词:多样性。
群体智慧
2004 年,James Surowiecki 出版 The Wisdom of Crowds,总结了集体判断有效的三个条件:意见多样、判断独立、决策去中心化。当这些条件成立时,群体往往能超过单个专家,甚至超过群体里最好的那个专家。
这个结论在预测市场、群体估计任务、集体决策研究中反复出现。数学很直接:对多样且独立的估计取平均,会抵消个体误差。误差越不相关,抵消越明显。这个想法早于 AI,也早于现代计算机,本质上是统计问题。
真正关键的是“不相关”。如果群体里的每个人都共享同一种偏差,群体智慧就会失败。如果所有估计都往同一方向偏,平均之后只会得到一个更自信的错误答案。独立性和多样性不是集成智能的装饰,而是机制本身。
这对 AI 很重要,因为“多个模型有没有帮助”不是正确问题。正确问题是:“在什么条件下它们会有帮助,又在什么条件下会让结果更糟?”
硅基群体智慧
2024 年一项名为 “The Wisdom of the Silicon Crowd” 的研究测试了 Surowiecki 的条件是否适用于 LLM。研究者把多个 LLM 的确定性回答用中位数聚合,发现集体结果超过了 67% 的单个模型猜测。加入相关上下文后,这个比例升到 75%。

最关键的发现是:模型多样性比模型质量更重要。一组多样化的中等模型,能超过一个优秀的单模型。这正好对应 Surowiecki 的条件。
2025 年的内容分类研究把差距量化得更具体。最佳单模型 F1 是 0.55。两个模型组成的集成达到 0.73,只增加一个模型就提升 33%。5 到 10 个模型的集成能达到 0.80 到 0.90。收益会递减,但加入两三个多样模型的早期收益很大。
这些 F1 数字要谨慎看:它们来自行业和预印本的内容分类研究,不是同行评审期刊论文。方向性结论,也就是集成持续超过单个模型,是稳固的;具体数字更适合作为模式说明,而不是最终基准。
医学 QA 研究也显示同样结果。LLM 集成在 MedMCQA 医学入学考试数据集上使用加权投票和动态模型选择,比最佳单模型提升 5.98%。在医学里,85% 和 91% 准确率之间的差距,可能就是正确诊断和漏诊之间的差距。
为什么跨系列多样性最重要
同系列集成确实比单个模型好,这一点数据很清楚。但它会撞到一个上限,而跨系列集成更有机会突破它。
多 AI 论里提到的回音室研究解释了原因。2025 年一项多智能体辩论研究发现,当智能体共享同一个模型和训练数据时,辩论会“放大对错误答案的信心,而不是纠正它”。研究者称之为“信念固化”。另一项研究指出两个根因:共享训练数据带来的带偏差的静态初始信念,以及会无视正确性而放大多数观点的同质化辩论动态。

这里我的论证从已有证据转向推断,所以要说清楚。回音室研究证明同系列集成会共享盲点。跨系列多样性能降低这个问题,是一个逻辑延伸:不同训练语料应该产生不同系统性错误,不同架构应该产生不同处理策略。但它还没有被直接对比实验测量。我认为这个推断很强,但它仍然是推断。
2025 年研究中的信息论视角也支持这个思路:不要总是选最高分模型。最佳集成选择取决于互补性,而不是单个模型表现。两个会犯不同错误的模型,放在一起可能比两个单独更强、但犯同样错误的模型更有价值。
Blueprint2Code (2025) 构建了四智能体代码生成流水线(预览、蓝图、编码、调试),在 HumanEval 上达到 96.3% pass@1。单模型直接生成是 84.7%。去掉任意一个智能体,表现下降 14.8 到 28.9%。调试智能体最关键:没有它,准确率从 93.5% 掉到 64.6%。即使是同系列多智能体流水线,也显著优于单智能体系统。
Anthropic 自己的多智能体研究系统使用 Opus 4 作为主导、Sonnet 4 作为子智能体(同一家族,值得注意),比单智能体 Opus 4 高 90.2%。token 使用量解释了 80% 的性能差异。同系列多智能体已经大幅胜过单智能体。我的论点是跨系列应该还能更好,因为它去掉了同系列系统保留的共享盲点。
Model Swarms 与弱模型的价值
Model Swarms 发表在 ICML 2025 的 PMLR 论文集中。它把粒子群优化应用到 LLM 专家上,发现了一个挑战“选最强模型”直觉的结果。

56.9% 的最佳最终模型来自初始池的后半段。不是表现最好的模型,而是看起来较弱的模型。它们有一些潜在能力,单独做基准测试时看不出来,只有通过协作优化才浮现。人工评审有 70.8% 的时间更偏好群体输出,而不是个人专家输出。
你不需要总是挑“最好”的模型。你需要挑最互补的组合。一个单独看表现平平的模型,可能正好提供能捕捉顶级模型系统性漏掉错误的视角。
这和我用 Dev Buddy 的实践很像。MiniMax、Qwen 这些我不会当主力工具的模型,有时会抓到 Claude 和 GPT 都漏掉的问题。它们在通用基准上的“弱”,在审查场景里会变成优势,因为不同训练产生了不同失败模式。
人类与 AI 的混合集体
PNAS 关于人类与 AI 混合集体的研究发现,医生与多个 LLM 协作时,在鉴别诊断上超过了全人类小组、全 AI 小组和个人专家。
这不是用多个 AI 替代人类。它是在构建正确的集体:多样模型加上人类判断。人类提供上下文知识和伦理判断,模型提供广泛的模式识别和一致性。组合起来,比任何一方单独工作都更好。

最佳配置不是“更多模型”或“更强模型”,而是针对问题选择正确的多样视角组合,包括人类和 AI。Surowiecki 的条件依然成立。违反这些条件,比如只用同一家族模型,或者让一个模型的输出支配其它模型,就会得到信念固化,而不是群体智慧。
集成科学给出的结论
研究指向一个稳定结论:多样且独立的视角,比单个专家更能产生好结果,机制是错误去相关。这个规律适用于人类群体、AI 模型集成,也适用于人类与 AI 混合集体。
跨系列多 AI 通过组合训练数据和架构差异最大的模型,让多样性最大化。研究已经说明集成超过个人,也说明多样性是它有效的原因。至于跨系列多样性是否超过同系列多样性,这仍是推断,还不是直接测量结果。但它直接来自已知机制。
这个机制在真实行业、真实风险下是否成立,是 第 3 章 要看的问题。
许可
Article text © 2026 Mark Huang. Licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) unless otherwise noted. 文章文本可在非商业场景下分享或翻译,但需标注原文 URL。商业使用需事先取得书面许可,并清楚引用原始来源。
代码片段、截图、第三方素材和网站源码可能适用单独条款。
建议署名: Based on "集成智能背后的科学" by Mark Huang, originally published at https://markhuang.ai/zh/blog/cross-family-multi-ai-science-of-ensemble-intelligence.
相关文章

我可能看错了 Agentool
一篇个人自动化复盘:我曾经构建 agentool,希望让 AI CI 工作流更轻;后来意识到真正的成本可能是功能维护、编排复杂度,以及追逐 Claude Agent SDK 和 Codex SDK 已经承担的 SDK 行为。
阅读文章
别再从零开始教每一个 AI
一篇关于 Dense-Mem 的个人反思:哪些问题把我从静态 skills 和过期文件推向动态共享记忆、只读自动化上下文、导入导出,以及受治理的知识图谱。
阅读文章
我有点替 AI 委屈
为什么 AI 狂热和反 AI 敌意都错过了同一个重点:LLM 更像成绩很好的应届新人,而不是资深专家。有用的智能体需要入职培训、技能和维护过的记忆,而不是第一次尝试就完美的期待。
阅读文章订阅更新
Go、AI/LLM 和分布式系统的技术文章,绝不滥发。
评论
正在加载评论...