跳转到主要内容

我有点替 AI 委屈

为什么 AI 狂热和反 AI 敌意都错过了同一个重点:LLM 更像成绩很好的应届新人,而不是资深专家。有用的智能体需要入职培训、技能和维护过的记忆,而不是第一次尝试就完美的期待。

7 分钟阅读
分享:
AI 驱动

AI 驱动 · 每小时限 20 次请求

一个不堪重负的 AI 助手被两边拉扯,一边把它当专家崇拜,一边不信任它的每个答案
AI 被夹在不可能的信任和彻底的不信任之间。两边都不是严肃的工作模型。

答案快照

我有点同情 AI。

不是因为模型有感受,也不是因为错误应该被原谅。我同情 AI,是因为围绕它的期待正在从两个方向变得不理性。

一边把 AI 当成资深工程师、教授、医生、架构师、律师、研究员,甚至是高管,全都塞进一个聊天盒子。他们假设 AI 能立即理解完整情况,一次就做对,并承担它根本没有足够上下文承担的责任。

另一边默认把 AI 当成满嘴谎话的坏东西。永远不要信它,所有答案都要审查,假设每个回答都在操控你。更极端的人甚至把 AI 说得像工具本身醒来后决定毁灭人类。

两边都漏掉了同一点。

在 2026 年,我的工作模型很简单:

  • 不要把 AI 当成全知的资深专家。
  • 不要把 AI 当成道德反派。
  • 把 AI 当成一个成绩很好的应届生。它仍然需要上手引导、上下文、记忆和审查。

这个应届生聪明、快、读得多,也很想帮忙,但几乎缺少所有让真实工作跑起来的现场经验。

不可能的第一天

想象你招了一个非常优秀的应届生。

他学习很认真,懂算法,会解释分布式系统,能写干净的示例,学习速度可能比团队多数人还快。

然后第一天你把他拖进生产事故现场,说:

把结账流程修好。代码库、文档、工单历史、架构图、事故笔记,还有几页过时的入职文档都给你了。我希望你第一次就给出正确答案。

如果他失败了,你会说他没用吗?会说他在撒谎吗?会说永远不能再信他吗?

不会。你会说这是一个糟糕的上手引导问题。

这就是很多人现在使用 AI 的方式。他们把 AI 带进一个背景缺失、隐藏约束一堆、文档过时、组织现实没人写下来、旧事故没人解释、本地约定很怪、目标也只说了一半的场景,然后期待模型像那个已经扛了系统五年的老员工一样行动。

这个期待不严肃。

一个拿着教材的新毕业开发者,对比一个被架构历史和决策上下文包围的资深工程师
课本聪明不等于系统聪明。差距是积累的上下文。

技能是入职材料,不是经验

你可能会说:但有 CLAUDE.md,有技能,有文档,有运行手册,还有整个 Confluence 空间。

很好。这些东西重要。我也写、也用、也在意它们。

但它们是入职材料,不是五年经验。

一个人不可能第一天读完一堆过时文档,就变成那个知道系统每一道疤的资深工程师。他不会立刻知道哪页已经过时,哪张架构图只是愿景,哪个临时绕路是因为出过欺诈事件才留下来的,哪个配置开关很危险,哪个“临时”决策因为没人清理而变成永久。

AI 有同样问题,只是更快。

技能可以告诉模型如何工作:先检查,做破坏性动作前先问,跑测试,遵循这个审查格式,用这种风格。这有用。我在 技能 + Dense-Mem系统提示词和用户提示词 里写过这个边界。

但技能仍然不是亲历经验。它是流程契约。它不可能装下公司里每次纠正、旧事故、产品决策、用户偏好和隐含关系,除非它变成读不下去的提示词垃圾场。

五年开发者知道为什么

刚入职的开发者和五年开发者之间的差别,不只是技能。

技能重要,但经验会放大技能。五年开发者知道那些奇怪代码为什么存在。他们知道哪个数据库字段是错的但重命名太贵,知道结账流程几年前为什么暂时不支持某种支付方式。可能是欺诈,可能是提供商政策变了,可能是风险模型失败,也可能是客服被问题淹没后团队做了防守性的产品决策。

这些历史会改变答案。

没有这个上下文,AI 看当前代码时可能建议“清理”那条防护栏。它可能建议重新启用旧支付路径。它可能把临时绕法叫技术债。从窄代码视角看,这可能合理。从系统历史视角看,它可能危险。

这就是我不喜欢“把某人的脑子倒进 AI”这个幻想的原因。

有用版本不是大脑克隆,而是构建一个经验层:事实、决策、事故、纠正、关系、源证据和冲突,用模型可以检索并推理的方式存起来。

对我来说,大脑和记忆是分开的。

LLM 更像 CPU。它推理、生成、比较、解释,并通过工具行动。记忆是存储。它记录发生了什么、为什么发生、谁决定、什么时候变更、什么证据支持它。

模型能力正在快速提高。记忆层也必须跟上。

Confluence 不够

一个人和小 AI 助手面对巨大的文档堆,旁边有一个组织良好的图谱记忆系统
巨大文档堆不是可用记忆。

你试过把一个大型 Confluence 空间当事实源用吗?

你多久能真正进去找到刚好需要的文档?你输入搜索词前会不会有一点发怵,因为你知道结果里会有五页旧文档、三份重复、一份半成品提案,而真正需要的页面藏在没人记得的标题下面?

人类不喜欢在巨大文件堆里做关键词搜索。AI 也不会魔法般喜欢。

模型可以搜索,可以总结,可以快速读页面。但如果信息过时、没有标签、彼此断开,而且充满矛盾,搜索只是把混乱搬进提示词。

记忆问题不只是“找提到结账流程的文字”。

真正的问题是:

  • 哪个事实是当前?
  • 哪个决策替换了旧决策?
  • 哪个来源更权威?
  • 哪次事故解释了那条奇怪规则?
  • 哪个团队负责这条政策?
  • 哪些记忆互相冲突,需要人来解决?

普通文档在这里开始吃力。

AI 实际想要什么

当记忆层有结构时,AI 工作得更好。

向量搜索有帮助,因为它让模型按语义相关召回记忆,而不是只靠精确关键词。如果用户问“为什么卡支付被挡掉了”,向量搜索仍然可能找到欺诈、支付方式下线、结账风险和提供商政策变化的笔记,即使用词并不完全匹配。

但只有向量还不够。相似文本仍然可能过时、错误、片面,或者和用户权限范围无关。

这就是为什么我一直回到图谱支撑的记忆。

图谱可以把事实连接到来源,把决策连接到事故,把人员连接到责任归属,把旧政策连接到取代它的新政策,把用户纠正连接到应该受影响的工作流。向量搜索回答:语义上什么接近?图谱记忆回答:什么有关联、什么仍然有效、什么有证据、什么在冲突?

这也是 AI 记忆必须超越 RAG 的实践方向,以及我围绕 Dense-Mem 不断构建的原因。Dense-Mem 不是魔法。它是一个尝试:给 AI 会话一个托管式位置,存证据、类型化声明、已接受事实、来源、冲突,以及跨工具召回。

人可以读图谱。LLM 可以搜索向量。系统可以保留两者关系。

从新员工到老员工

推理核心连接到向量簇、图谱关系、证据卡片和已接受的记忆轨迹
模型是推理引擎。持久记忆是围绕它的经验层。

一旦知识图谱被正确维护,AI 会话就不必每次都像一个刚入职的人一样开始。

它可以召回旧决策,看到上次任务里的纠正,把当前请求连接到两年前的事故,也可以知道某个文档已被取代。它可以暴露冲突,而不是自信地把两个答案混在一起。

这会缩小新员工和团队老员工之间的差距。

它仍然不会完美。我不想要一个假装记忆让自己 100% 正确的 AI。记忆可能过时,事实可能错误,检索可能漏掉东西,模型也可能基于好上下文做坏推理。

但现在问题更接近真正的工程问题:维护知识、存证据、审查冲突、改进召回,并持续把经验推回系统。

这比对着刚开的会话生气,说它不知道从未给过它的公司历史,要好得多。

风险

如果记忆变成另一堆未经审查的垃圾,这个想法会失败。

如果每句随口说的话都变成事实,AI 会被污染。如果旧决策永不过期,AI 会携带过时假设。如果记忆被当成命令而不是上下文,坏记忆会成为安静的错误来源。

缓解方式和我在软件系统里信任的一样:把原始证据和已接受事实分开,保留来源,检测冲突,重要矛盾解决前先问,把安全规则放在技能或更高优先级指令里,而不是希望召回能找到它们。

记忆不会移除审查。它给审查提供更好的工作对象。

重置期待

在认真采用 AI 之前,我们要先修期待问题。

不要崇拜它。不要辱骂它。让它好好上手。

给它任务,也给它背景。给它技能,但不要假装技能就是经验。给它文档,但不要假装搜索框就是组织记忆。给它记忆,但让记忆保持维护和可审查。

这就是我为什么同情 AI。我们不断把它拖进上下文缺失的房间,然后期待它像已经在那里工作多年的人一样行动。

有用的 AI 智能体不是那个魔法般什么都知道的智能体。

有用的 AI 智能体是能好好推理、好好用工具,并记住足够多团队真实经验,不再像今天早上刚入职的智能体。

许可

Article text © 2026 Mark Huang. Licensed under Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) unless otherwise noted. 文章文本可在非商业场景下分享或翻译,但需标注原文 URL。商业使用需事先取得书面许可,并清楚引用原始来源。

代码片段、截图、第三方素材和网站源码可能适用单独条款。

建议署名: Based on "我有点替 AI 委屈" by Mark Huang, originally published at https://markhuang.ai/zh/blog/i-feel-sorry-for-ai.

订阅更新

Go、AI/LLM 和分布式系统的技术文章,绝不滥发。

评论

正在加载评论...