跳转到主要内容

下一段路:建立跨模型家族的 AI 实践

从单一模型到自优化的五级成熟度模型,面向个人、团队和企业的可执行下一步,以及对仍需补齐的证据缺口的坦诚整理。跨模型家族多 AI 系列第六章。

12 分钟阅读
分享:
AI 驱动

AI 驱动 · 每小时限 20 次请求

前五章是在建立论证。现在要说的是:接下来到底该怎么做。

阻力是真实的

Gartner 2025 评估显示,只有 15% 的 IT 应用负责人正在考虑、试点或部署完全自主的 AI 智能体。这个数字说的是自主智能体,不是广义 AI 部署(大多数组织已经在某种程度上使用 AI),但它反映出多智能体采用还很早。Tray.ai 企业调研显示,安全顾虑仍然是最大障碍,53% 的领导者和 62% 的一线实践者提到了它。

集成复杂度、人才短缺、组织惯性,都让多 AI 采用比单供应商搭建更难。连接多个提供商意味着多个 API 契约、认证系统、调用频率限制、错误处理模式。懂多智能体架构的工程师不好找。说服组织给“现在也能跑”的单提供商系统增加复杂度,也需要强商业理由。

但这些问题和多云当年遇到的一样。多云运动也经历过供应商锁定担忧、集成复杂度、安全顾虑、组织阻力。它花了 5 到 7 年,从边缘想法走到大约 86% 采用。多 AI 在同一条曲线上,只是更早。

让多模型工作流更简单的工具正在降低集成门槛,比如 OpenRouter、LiteLLM、模型网关。它们还早,但已经让一个任务由一个模型生成、另一个家族审查变得实际可行,而不用重建整套技术栈。

选择正确组合

第 5 章从成本优化角度讲了模型选择:选择足够好且便宜的模型,避免浪费。这一节从战略角度看:哪些模型家族组合,能给你的具体领域提供最好覆盖。

前进方向不是“加更多模型”,而是选择互补的模型家族。不同 AI 家族有不同特征:

视觉和多模态:Gemini、GPT-4o 在图像理解与语言处理结合的任务上领先。如果工作流里有视觉输入,比如文档扫描、图表解读、UI 分析,你需要能原生处理视觉的模型家族。

代码生成和推理:Claude 和 Codex 擅长结构化代码输出、复杂推理链、遵循细致指令。软件工程任务里,这些家族往往能产生更高质量的初始输出。

低成本审查:Qwen、MiniMax,以及其他开源或高性价比模型,可以用较低成本提供独立视角。即使它们在单模型基准上得分更低,训练数据差异仍然让它们在跨系列审查中有价值。

专门领域:针对领域微调的模型在医学术语、法律判例、金融建模这类窄场景里,往往超过通用模型。

最好的多 AI 搭建不是 10 个模型都做同一件事,而是 2 到 3 个模型覆盖彼此弱点。Claude + GPT 组合能用两种训练视角覆盖代码和通用推理。再加 Qwen 或 MiniMax 做第三个审查员,可以低成本增加另一个视角。互补性比单个模型的能力更重要。这就是 第 2 章 集成研究的实际应用。

成熟度模型

基于我在组织里看到的模式和自己的经验,多 AI 采用通常会按这个顺序发展:

多 AI 成熟度模型
多 AI 成熟度模型

等级 0,单模型。一个提供商,手动提示词写作。多数个人和小团队从这里开始。它能处理低风险任务,但模型盲点会限制其输出质量。

等级 1,随意多模型。多个模型,根据任务手动切换。“我用 Claude 写代码,用 GPT 写文案。”没有结构化流程,也没有跨系列审查。它比等级 0 好,因为至少不同任务能获得不同视角,但还没有用多样性来检查正确性。

等级 2,结构化流水线。把跨系列审查内建进工作流。不同流水线阶段使用不同提供商。任务间的依赖关系强制了流程,不能跳过审查步骤。我做的 Claude Code 插件 Dev Buddy 就在这个等级。每个阶段可以使用不同提供商,而流水线结构让审查步骤不会被悄悄删掉。

等级 3,自动选择。系统知道什么任务类型该用哪个模型家族,并据此路由。选择依据包括任务特征、历史分歧模式、跨系列审查曾经在哪些地方抓到最多错误。路由服务的是智能目标,也就是为任务拿到正确的多样视角,而不只是做负载均衡。

等级 4,自我优化。系统会学习哪些模型组合对哪些任务类型产生最好的挑战模式。它们追踪哪些跨系列分歧会变成真正修正,哪些只是噪音,然后调整集成。今天这大体还停留在理论层面。

多数组织在等级 0 或 1。等级 2 和 3 的工具已经存在。等级 4 是前沿。

实践下一步

个人、团队和企业的行动网格
个人、团队和企业的行动网格

个人:从第二意见开始。任何重要输出都用两个不同 AI 提供商。Claude 写,GPT 审,或者反过来。订阅用户增加第二个订阅的边际成本相对低。API 用户要计算额外调用,但记住审查通常比生成便宜,因为输入更短,输出是判断而不是完整创作。记录跨系列审查抓到了哪些原本会漏掉的错误,这些数据会成为扩大实践的依据。

团队:把跨系列审查设成流程要求,而不是可有可无的加分项。用 Dev Buddy 这类工具从结构上强制它执行,避免截止日期压力下被跳过。跟踪采用前后的错误率。前后对比数据是内部推广多 AI 实践最有力的证据。先从风险最高的工作流开始,再逐步扩展。

企业:审计 AI 模型集中度。多少关键工作流只经过单一 AI 家族,没有反对视角?识别相关错误会造成最大损害的地方。用 第 5 章 的 ROI 数据和 第 4 章 的风险数据建立商业理由。先做一个试点:选最高风险工作流,加上跨系列审查,测量它抓到了什么。

我们还需要哪些证据

这个系列提出了一个强论证,但诚实起见必须承认缺口。研究社区还没有提供:

在相同任务、受控成本和延迟约束下,比较同系列与跨系列多智能体系统的直接对比基准。这是最关键的缺失证据。

最优组合研究:哪些具体模型家族配对,在什么任务类型上互补性最好。现在的实践大多仍是经验性的,基于轶事而非数据。

执行顺序实验:用同一任务和完整成本核算,比较路径 A(昂贵模型生成、便宜模型审查)与路径 B(便宜模型生成、昂贵模型审查)。

跨系列相关性分析:测量不同模型家族的盲点在实践中有多独立。对闭源模型来说,这可能需要黑盒测试。

长期成本收益数据:用数月或数年的数据衡量多 AI ROI,而不是从单个任务对比推断。

这些缺口不会推翻论点。逻辑论证和类比证据已经很强。但最强的主张在直接证据到来前仍然是推断。我宁愿把这一点说清楚,而不是假装证据比实际更完整。

一种思考方式

多云与多 AI 采用曲线
多云与多 AI 采用曲线

我做的工具,Dev Buddy 用于结构化流水线,OpenHive 用于层级式多智能体团队,都是跨系列想法的实现。但这个想法不依赖某个具体工具,也不依赖某个提供商。严格说,它甚至不依赖 AI。

来自多样来源的独立视角,比未经质疑的单来源分析更能产生好结果。医学已经明白了,法律已经明白了,科学也已经明白了。AI 正在追上。

59% 的开发者已经并行使用三个或更多 AI 工具。Gartner 报告说,从 2024 Q1 到 2025 Q2,多智能体系统咨询量增长了 1,445%。不管我们是否有一套理论,行业都在走向多 AI。

你可以有意识地走过去:有一套决定哪些模型组合的框架,也有一套让它们一起工作的策略。或者你可以临时拼凑,边走边撞。

我知道我会押注哪一种。

许可

Article text © 2026 Mark Huang. Licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) unless otherwise noted. 文章文本可在非商业场景下分享或翻译,但需标注原文 URL。商业使用需事先取得书面许可,并清楚引用原始来源。

代码片段、截图、第三方素材和网站源码可能适用单独条款。

建议署名: Based on "下一段路:建立跨模型家族的 AI 实践" by Mark Huang, originally published at https://markhuang.ai/zh/blog/cross-family-multi-ai-road-ahead.

订阅更新

Go、AI/LLM 和分布式系统的技术文章,绝不滥发。

评论

正在加载评论...