集成智能背后的科学

群体胜过个体并不是新想法。它是决策科学里最老的发现之一。新的是：这个结论同样适用于 AI 模型，而且让它成立的关键成分仍然是同一个词：多样性。

群体智慧

2004 年，James Surowiecki 出版 The Wisdom of Crowds，总结了集体判断有效的三个条件：意见多样、判断独立、决策去中心化。当这些条件成立时，群体往往能超过单个专家，甚至超过群体里最好的那个专家。

这个结论在预测市场、群体估计任务、集体决策研究中反复出现。数学很直接：对多样且独立的估计取平均，会抵消个体误差。误差越不相关，抵消越明显。这个想法早于 AI，也早于现代计算机，本质上是统计问题。

真正关键的是“不相关”。如果群体里的每个人都共享同一种偏差，群体智慧就会失败。如果所有估计都往同一方向偏，平均之后只会得到一个更自信的错误答案。独立性和多样性不是集成智能的装饰，而是机制本身。

这对 AI 很重要，因为“多个模型有没有帮助”不是正确问题。正确问题是：“在什么条件下它们会有帮助，又在什么条件下会让结果更糟？”

硅基群体智慧

2024 年一项名为 “The Wisdom of the Silicon Crowd” 的研究测试了 Surowiecki 的条件是否适用于 LLM。研究者把多个 LLM 的确定性回答用中位数聚合，发现集体结果超过了 67% 的单个模型猜测。加入相关上下文后，这个比例升到 75%。

最关键的发现是：模型多样性比模型质量更重要。一组多样化的中等模型，能超过一个优秀的单模型。这正好对应 Surowiecki 的条件。

2025 年的内容分类研究把差距量化得更具体。最佳单模型 F1 是 0.55。两个模型组成的集成达到 0.73，只增加一个模型就提升 33%。5 到 10 个模型的集成能达到 0.80 到 0.90。收益会递减，但加入两三个多样模型的早期收益很大。

这些 F1 数字要谨慎看：它们来自行业和预印本的内容分类研究，不是同行评审期刊论文。方向性结论，也就是集成持续超过单个模型，是稳固的；具体数字更适合作为模式说明，而不是最终基准。

医学 QA 研究也显示同样结果。LLM 集成在 MedMCQA 医学入学考试数据集上使用加权投票和动态模型选择，比最佳单模型提升 5.98%。在医学里，85% 和 91% 准确率之间的差距，可能就是正确诊断和漏诊之间的差距。

为什么跨系列多样性最重要

同系列集成确实比单个模型好，这一点数据很清楚。但它会撞到一个上限，而跨系列集成更有机会突破它。

多 AI 论里提到的回音室研究解释了原因。2025 年一项多智能体辩论研究发现，当智能体共享同一个模型和训练数据时，辩论会“放大对错误答案的信心，而不是纠正它”。研究者称之为“信念固化”。另一项研究指出两个根因：共享训练数据带来的带偏差的静态初始信念，以及会无视正确性而放大多数观点的同质化辩论动态。

这里我的论证从已有证据转向推断，所以要说清楚。回音室研究证明同系列集成会共享盲点。跨系列多样性能降低这个问题，是一个逻辑延伸：不同训练语料应该产生不同系统性错误，不同架构应该产生不同处理策略。但它还没有被直接对比实验测量。我认为这个推断很强，但它仍然是推断。

2025 年研究中的信息论视角也支持这个思路：不要总是选最高分模型。最佳集成选择取决于互补性，而不是单个模型表现。两个会犯不同错误的模型，放在一起可能比两个单独更强、但犯同样错误的模型更有价值。

Blueprint2Code (2025) 构建了四智能体代码生成流水线（预览、蓝图、编码、调试），在 HumanEval 上达到 96.3% pass@1。单模型直接生成是 84.7%。去掉任意一个智能体，表现下降 14.8 到 28.9%。调试智能体最关键：没有它，准确率从 93.5% 掉到 64.6%。即使是同系列多智能体流水线，也显著优于单智能体系统。

Anthropic 自己的多智能体研究系统使用 Opus 4 作为主导、Sonnet 4 作为子智能体（同一家族，值得注意），比单智能体 Opus 4 高 90.2%。token 使用量解释了 80% 的性能差异。同系列多智能体已经大幅胜过单智能体。我的论点是跨系列应该还能更好，因为它去掉了同系列系统保留的共享盲点。

Model Swarms 与弱模型的价值

Model Swarms 发表在 ICML 2025 的 PMLR 论文集中。它把粒子群优化应用到 LLM 专家上，发现了一个挑战“选最强模型”直觉的结果。

56.9% 的最佳最终模型来自初始池的后半段。不是表现最好的模型，而是看起来较弱的模型。它们有一些潜在能力，单独做基准测试时看不出来，只有通过协作优化才浮现。人工评审有 70.8% 的时间更偏好群体输出，而不是个人专家输出。

你不需要总是挑“最好”的模型。你需要挑最互补的组合。一个单独看表现平平的模型，可能正好提供能捕捉顶级模型系统性漏掉错误的视角。

这和我用 Dev Buddy 的实践很像。MiniMax、Qwen 这些我不会当主力工具的模型，有时会抓到 Claude 和 GPT 都漏掉的问题。它们在通用基准上的“弱”，在审查场景里会变成优势，因为不同训练产生了不同失败模式。

人类与 AI 的混合集体

PNAS 关于人类与 AI 混合集体的研究发现，医生与多个 LLM 协作时，在鉴别诊断上超过了全人类小组、全 AI 小组和个人专家。

这不是用多个 AI 替代人类。它是在构建正确的集体：多样模型加上人类判断。人类提供上下文知识和伦理判断，模型提供广泛的模式识别和一致性。组合起来，比任何一方单独工作都更好。

最佳配置不是“更多模型”或“更强模型”，而是针对问题选择正确的多样视角组合，包括人类和 AI。Surowiecki 的条件依然成立。违反这些条件，比如只用同一家族模型，或者让一个模型的输出支配其它模型，就会得到信念固化，而不是群体智慧。

集成科学给出的结论

研究指向一个稳定结论：多样且独立的视角，比单个专家更能产生好结果，机制是错误去相关。这个规律适用于人类群体、AI 模型集成，也适用于人类与 AI 混合集体。

跨系列多 AI 通过组合训练数据和架构差异最大的模型，让多样性最大化。研究已经说明集成超过个人，也说明多样性是它有效的原因。至于跨系列多样性是否超过同系列多样性，这仍是推断，还不是直接测量结果。但它直接来自已知机制。

这个机制在真实行业、真实风险下是否成立，是第 3 章要看的问题。

集成智能背后的科学

群体智慧

硅基群体智慧

为什么跨系列多样性最重要

Model Swarms 与弱模型的价值

人类与 AI 的混合集体

集成科学给出的结论

许可

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论

群体智慧

硅基群体智慧

为什么跨系列多样性最重要

Model Swarms 与弱模型的价值

人类与 AI 的混合集体

集成科学给出的结论

许可

相关文章

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论