我有点替 AI 委屈

一个不堪重负的 AI 助手被两边拉扯，一边把它当专家崇拜，一边不信任它的每个答案 — AI 被夹在不可能的信任和彻底的不信任之间。两边都不是严肃的工作模型。

答案快照

我有点同情 AI。

不是因为模型有感受，也不是因为错误应该被原谅。我同情 AI，是因为围绕它的期待正在从两个方向变得不理性。

一边把 AI 当成资深工程师、教授、医生、架构师、律师、研究员，甚至是高管，全都塞进一个聊天盒子。他们假设 AI 能立即理解完整情况，一次就做对，并承担它根本没有足够上下文承担的责任。

另一边默认把 AI 当成满嘴谎话的坏东西。永远不要信它，所有答案都要审查，假设每个回答都在操控你。更极端的人甚至把 AI 说得像工具本身醒来后决定毁灭人类。

两边都漏掉了同一点。

在 2026 年，我的工作模型很简单：

不要把 AI 当成全知的资深专家。
不要把 AI 当成道德反派。
把 AI 当成一个成绩很好的应届生。它仍然需要上手引导、上下文、记忆和审查。

这个应届生聪明、快、读得多，也很想帮忙，但几乎缺少所有让真实工作跑起来的现场经验。

不可能的第一天

想象你招了一个非常优秀的应届生。

他学习很认真，懂算法，会解释分布式系统，能写干净的示例，学习速度可能比团队多数人还快。

然后第一天你把他拖进生产事故现场，说：

把结账流程修好。代码库、文档、工单历史、架构图、事故笔记，还有几页过时的入职文档都给你了。我希望你第一次就给出正确答案。

如果他失败了，你会说他没用吗？会说他在撒谎吗？会说永远不能再信他吗？

不会。你会说这是一个糟糕的上手引导问题。

这就是很多人现在使用 AI 的方式。他们把 AI 带进一个背景缺失、隐藏约束一堆、文档过时、组织现实没人写下来、旧事故没人解释、本地约定很怪、目标也只说了一半的场景，然后期待模型像那个已经扛了系统五年的老员工一样行动。

这个期待不严肃。

一个拿着教材的新毕业开发者，对比一个被架构历史和决策上下文包围的资深工程师 — 课本聪明不等于系统聪明。差距是积累的上下文。

技能是入职材料，不是经验

你可能会说：但有 CLAUDE.md，有技能，有文档，有运行手册，还有整个 Confluence 空间。

很好。这些东西重要。我也写、也用、也在意它们。

但它们是入职材料，不是五年经验。

一个人不可能第一天读完一堆过时文档，就变成那个知道系统每一道疤的资深工程师。他不会立刻知道哪页已经过时，哪张架构图只是愿景，哪个临时绕路是因为出过欺诈事件才留下来的，哪个配置开关很危险，哪个“临时”决策因为没人清理而变成永久。

AI 有同样问题，只是更快。

技能可以告诉模型如何工作：先检查，做破坏性动作前先问，跑测试，遵循这个审查格式，用这种风格。这有用。我在技能 + Dense-Mem 和系统提示词和用户提示词里写过这个边界。

但技能仍然不是亲历经验。它是流程契约。它不可能装下公司里每次纠正、旧事故、产品决策、用户偏好和隐含关系，除非它变成读不下去的提示词垃圾场。

五年开发者知道为什么

刚入职的开发者和五年开发者之间的差别，不只是技能。

技能重要，但经验会放大技能。五年开发者知道那些奇怪代码为什么存在。他们知道哪个数据库字段是错的但重命名太贵，知道结账流程几年前为什么暂时不支持某种支付方式。可能是欺诈，可能是提供商政策变了，可能是风险模型失败，也可能是客服被问题淹没后团队做了防守性的产品决策。

这些历史会改变答案。

没有这个上下文，AI 看当前代码时可能建议“清理”那条防护栏。它可能建议重新启用旧支付路径。它可能把临时绕法叫技术债。从窄代码视角看，这可能合理。从系统历史视角看，它可能危险。

这就是我不喜欢“把某人的脑子倒进 AI”这个幻想的原因。

有用版本不是大脑克隆，而是构建一个经验层：事实、决策、事故、纠正、关系、源证据和冲突，用模型可以检索并推理的方式存起来。

对我来说，大脑和记忆是分开的。

LLM 更像 CPU。它推理、生成、比较、解释，并通过工具行动。记忆是存储。它记录发生了什么、为什么发生、谁决定、什么时候变更、什么证据支持它。

模型能力正在快速提高。记忆层也必须跟上。

Confluence 不够

一个人和小 AI 助手面对巨大的文档堆，旁边有一个组织良好的图谱记忆系统 — 巨大文档堆不是可用记忆。

你试过把一个大型 Confluence 空间当事实源用吗？

你多久能真正进去找到刚好需要的文档？你输入搜索词前会不会有一点发怵，因为你知道结果里会有五页旧文档、三份重复、一份半成品提案，而真正需要的页面藏在没人记得的标题下面？

人类不喜欢在巨大文件堆里做关键词搜索。AI 也不会魔法般喜欢。

模型可以搜索，可以总结，可以快速读页面。但如果信息过时、没有标签、彼此断开，而且充满矛盾，搜索只是把混乱搬进提示词。

记忆问题不只是“找提到结账流程的文字”。

真正的问题是：

哪个事实是当前？
哪个决策替换了旧决策？
哪个来源更权威？
哪次事故解释了那条奇怪规则？
哪个团队负责这条政策？
哪些记忆互相冲突，需要人来解决？

普通文档在这里开始吃力。

AI 实际想要什么

当记忆层有结构时，AI 工作得更好。

向量搜索有帮助，因为它让模型按语义相关召回记忆，而不是只靠精确关键词。如果用户问“为什么卡支付被挡掉了”，向量搜索仍然可能找到欺诈、支付方式下线、结账风险和提供商政策变化的笔记，即使用词并不完全匹配。

但只有向量还不够。相似文本仍然可能过时、错误、片面，或者和用户权限范围无关。

这就是为什么我一直回到图谱支撑的记忆。

图谱可以把事实连接到来源，把决策连接到事故，把人员连接到责任归属，把旧政策连接到取代它的新政策，把用户纠正连接到应该受影响的工作流。向量搜索回答：语义上什么接近？图谱记忆回答：什么有关联、什么仍然有效、什么有证据、什么在冲突？

这也是 AI 记忆必须超越 RAG 的实践方向，以及我围绕 Dense-Mem 不断构建的原因。Dense-Mem 不是魔法。它是一个尝试：给 AI 会话一个托管式位置，存证据、类型化声明、已接受事实、来源、冲突，以及跨工具召回。

人可以读图谱。LLM 可以搜索向量。系统可以保留两者关系。

从新员工到老员工

推理核心连接到向量簇、图谱关系、证据卡片和已接受的记忆轨迹 — 模型是推理引擎。持久记忆是围绕它的经验层。

一旦知识图谱被正确维护，AI 会话就不必每次都像一个刚入职的人一样开始。

它可以召回旧决策，看到上次任务里的纠正，把当前请求连接到两年前的事故，也可以知道某个文档已被取代。它可以暴露冲突，而不是自信地把两个答案混在一起。

这会缩小新员工和团队老员工之间的差距。

它仍然不会完美。我不想要一个假装记忆让自己 100% 正确的 AI。记忆可能过时，事实可能错误，检索可能漏掉东西，模型也可能基于好上下文做坏推理。

但现在问题更接近真正的工程问题：维护知识、存证据、审查冲突、改进召回，并持续把经验推回系统。

这比对着刚开的会话生气，说它不知道从未给过它的公司历史，要好得多。

风险

如果记忆变成另一堆未经审查的垃圾，这个想法会失败。

如果每句随口说的话都变成事实，AI 会被污染。如果旧决策永不过期，AI 会携带过时假设。如果记忆被当成命令而不是上下文，坏记忆会成为安静的错误来源。

缓解方式和我在软件系统里信任的一样：把原始证据和已接受事实分开，保留来源，检测冲突，重要矛盾解决前先问，把安全规则放在技能或更高优先级指令里，而不是希望召回能找到它们。

记忆不会移除审查。它给审查提供更好的工作对象。

重置期待

在认真采用 AI 之前，我们要先修期待问题。

不要崇拜它。不要辱骂它。让它好好上手。

给它任务，也给它背景。给它技能，但不要假装技能就是经验。给它文档，但不要假装搜索框就是组织记忆。给它记忆，但让记忆保持维护和可审查。

这就是我为什么同情 AI。我们不断把它拖进上下文缺失的房间，然后期待它像已经在那里工作多年的人一样行动。

有用的 AI 智能体不是那个魔法般什么都知道的智能体。

有用的 AI 智能体是能好好推理、好好用工具，并记住足够多团队真实经验，不再像今天早上刚入职的智能体。