下一段路：建立跨模型家族的 AI 实践

前五章是在建立论证。现在要说的是：接下来到底该怎么做。

阻力是真实的

Gartner 2025 评估显示，只有 15% 的 IT 应用负责人正在考虑、试点或部署完全自主的 AI 智能体。这个数字说的是自主智能体，不是广义 AI 部署（大多数组织已经在某种程度上使用 AI），但它反映出多智能体采用还很早。Tray.ai 企业调研显示，安全顾虑仍然是最大障碍，53% 的领导者和 62% 的一线实践者提到了它。

集成复杂度、人才短缺、组织惯性，都让多 AI 采用比单供应商搭建更难。连接多个提供商意味着多个 API 契约、认证系统、调用频率限制、错误处理模式。懂多智能体架构的工程师不好找。说服组织给“现在也能跑”的单提供商系统增加复杂度，也需要强商业理由。

但这些问题和多云当年遇到的一样。多云运动也经历过供应商锁定担忧、集成复杂度、安全顾虑、组织阻力。它花了 5 到 7 年，从边缘想法走到大约 86% 采用。多 AI 在同一条曲线上，只是更早。

让多模型工作流更简单的工具正在降低集成门槛，比如 OpenRouter、LiteLLM、模型网关。它们还早，但已经让一个任务由一个模型生成、另一个家族审查变得实际可行，而不用重建整套技术栈。

选择正确组合

第 5 章从成本优化角度讲了模型选择：选择足够好且便宜的模型，避免浪费。这一节从战略角度看：哪些模型家族组合，能给你的具体领域提供最好覆盖。

前进方向不是“加更多模型”，而是选择互补的模型家族。不同 AI 家族有不同特征：

视觉和多模态：Gemini、GPT-4o 在图像理解与语言处理结合的任务上领先。如果工作流里有视觉输入，比如文档扫描、图表解读、UI 分析，你需要能原生处理视觉的模型家族。

代码生成和推理：Claude 和 Codex 擅长结构化代码输出、复杂推理链、遵循细致指令。软件工程任务里，这些家族往往能产生更高质量的初始输出。

低成本审查：Qwen、MiniMax，以及其他开源或高性价比模型，可以用较低成本提供独立视角。即使它们在单模型基准上得分更低，训练数据差异仍然让它们在跨系列审查中有价值。

专门领域：针对领域微调的模型在医学术语、法律判例、金融建模这类窄场景里，往往超过通用模型。

最好的多 AI 搭建不是 10 个模型都做同一件事，而是 2 到 3 个模型覆盖彼此弱点。Claude + GPT 组合能用两种训练视角覆盖代码和通用推理。再加 Qwen 或 MiniMax 做第三个审查员，可以低成本增加另一个视角。互补性比单个模型的能力更重要。这就是第 2 章集成研究的实际应用。

成熟度模型

基于我在组织里看到的模式和自己的经验，多 AI 采用通常会按这个顺序发展：

等级 0，单模型。一个提供商，手动提示词写作。多数个人和小团队从这里开始。它能处理低风险任务，但模型盲点会限制其输出质量。

等级 1，随意多模型。多个模型，根据任务手动切换。“我用 Claude 写代码，用 GPT 写文案。”没有结构化流程，也没有跨系列审查。它比等级 0 好，因为至少不同任务能获得不同视角，但还没有用多样性来检查正确性。

等级 2，结构化流水线。把跨系列审查内建进工作流。不同流水线阶段使用不同提供商。任务间的依赖关系强制了流程，不能跳过审查步骤。我做的 Claude Code 插件 Dev Buddy 就在这个等级。每个阶段可以使用不同提供商，而流水线结构让审查步骤不会被悄悄删掉。

等级 3，自动选择。系统知道什么任务类型该用哪个模型家族，并据此路由。选择依据包括任务特征、历史分歧模式、跨系列审查曾经在哪些地方抓到最多错误。路由服务的是智能目标，也就是为任务拿到正确的多样视角，而不只是做负载均衡。

等级 4，自我优化。系统会学习哪些模型组合对哪些任务类型产生最好的挑战模式。它们追踪哪些跨系列分歧会变成真正修正，哪些只是噪音，然后调整集成。今天这大体还停留在理论层面。

多数组织在等级 0 或 1。等级 2 和 3 的工具已经存在。等级 4 是前沿。

实践下一步

个人：从第二意见开始。任何重要输出都用两个不同 AI 提供商。Claude 写，GPT 审，或者反过来。订阅用户增加第二个订阅的边际成本相对低。API 用户要计算额外调用，但记住审查通常比生成便宜，因为输入更短，输出是判断而不是完整创作。记录跨系列审查抓到了哪些原本会漏掉的错误，这些数据会成为扩大实践的依据。

团队：把跨系列审查设成流程要求，而不是可有可无的加分项。用 Dev Buddy 这类工具从结构上强制它执行，避免截止日期压力下被跳过。跟踪采用前后的错误率。前后对比数据是内部推广多 AI 实践最有力的证据。先从风险最高的工作流开始，再逐步扩展。

企业：审计 AI 模型集中度。多少关键工作流只经过单一 AI 家族，没有反对视角？识别相关错误会造成最大损害的地方。用第 5 章的 ROI 数据和第 4 章的风险数据建立商业理由。先做一个试点：选最高风险工作流，加上跨系列审查，测量它抓到了什么。

我们还需要哪些证据

这个系列提出了一个强论证，但诚实起见必须承认缺口。研究社区还没有提供：

在相同任务、受控成本和延迟约束下，比较同系列与跨系列多智能体系统的直接对比基准。这是最关键的缺失证据。

最优组合研究：哪些具体模型家族配对，在什么任务类型上互补性最好。现在的实践大多仍是经验性的，基于轶事而非数据。

执行顺序实验：用同一任务和完整成本核算，比较路径 A（昂贵模型生成、便宜模型审查）与路径 B（便宜模型生成、昂贵模型审查）。

跨系列相关性分析：测量不同模型家族的盲点在实践中有多独立。对闭源模型来说，这可能需要黑盒测试。

长期成本收益数据：用数月或数年的数据衡量多 AI ROI，而不是从单个任务对比推断。

这些缺口不会推翻论点。逻辑论证和类比证据已经很强。但最强的主张在直接证据到来前仍然是推断。我宁愿把这一点说清楚，而不是假装证据比实际更完整。

一种思考方式

我做的工具，Dev Buddy 用于结构化流水线，OpenHive 用于层级式多智能体团队，都是跨系列想法的实现。但这个想法不依赖某个具体工具，也不依赖某个提供商。严格说，它甚至不依赖 AI。

来自多样来源的独立视角，比未经质疑的单来源分析更能产生好结果。医学已经明白了，法律已经明白了，科学也已经明白了。AI 正在追上。

59% 的开发者已经并行使用三个或更多 AI 工具。Gartner 报告说，从 2024 Q1 到 2025 Q2，多智能体系统咨询量增长了 1,445%。不管我们是否有一套理论，行业都在走向多 AI。

你可以有意识地走过去：有一套决定哪些模型组合的框架，也有一套让它们一起工作的策略。或者你可以临时拼凑，边走边撞。

我知道我会押注哪一种。

下一段路：建立跨模型家族的 AI 实践

阻力是真实的

选择正确组合

成熟度模型

实践下一步

我们还需要哪些证据

一种思考方式

许可

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论

阻力是真实的

选择正确组合

成熟度模型

实践下一步

我们还需要哪些证据

一种思考方式

许可

相关文章

我可能看错了 Agentool

别再从零开始教每一个 AI

我有点替 AI 委屈

订阅更新

评论