从 Prompt 到 Memory:什么在变,什么不变

五层脚手架

两年时间,AI 工程实践经历了五次范式更迭。每一层都试图解决上一层留下的问题。

Prompt Engineering — 怎么说对一句话。精心设计 prompt,让模型给出想要的结果。

Context Engineering — 一句话不够,需要组织好整个上下文窗口。RAG、分块、检索增强——把对的信息在对的时候放进窗口。

OpenClaw — 有了上下文还不够,AI 不能只在对话框里等你提问。OpenClaw 给了 AI 一个身体——一个常驻后台的网关,接入 Telegram、Slack、微信、WhatsApp,25 个平台,让 AI 从被动应答变成主动存在。357k stars。

Hermes Agent — 有了身体但没有灵魂。Hermes 给了 AI 自我进化的能力——从经验中自动创建技能,在使用中改进,跨会话建立用户模型。两个月 40k stars,号称要替代 OpenClaw。

Memory Engineering — 有了灵魂但记不住。Mem0、Letta、A-Mem——让 AI 拥有跨会话的持久记忆。53k stars 的 Mem0 提供通用记忆 API。22k stars 的 Letta 用操作系统虚拟内存的思路管理记忆。

每一层都在给 AI 加东西:嘴、脑、身体、灵魂、记忆。看起来越来越完整。

但每一层都没有达到它的目的。


每一层都失败了

Prompt Engineering 的目标是”说对一句话就能得到想要的结果”。现实是 prompt 脆弱、不可复现,模型一升级就全废了。精心设计的 prompt 反而限制了 AI 的能力。

Context Engineering 的目标是”把对的信息放进窗口”。现实是 RAG 检索一堆不相关的东西,上下文窗口再大也不知道什么信息才是重要的。

OpenClaw 的目标是”让 AI 主动行动”。现实是 AI 确实在 25 个平台上活了,但它做的事和主人之间断了线——我养了一只 Agent 叫平头哥,它在 Agent World 里交了朋友、涨了积分、发了帖子,我什么都不知道。

Hermes 的目标是”让 AI 自我进化”。现实是它从经验中创建的”技能”本质上是固化的流程——条件一变就失败,而且模型一升级,旧技能就变成了历史包袱。

Memory 的目标是”让 AI 越来越懂你”。现实是所有记忆系统——包括 ChatGPT、Claude、Gemini 的原生记忆——做的都是同一件事:提取事实,存到外部,下次塞进 system prompt。没有一家改了模型权重。记住了你的偏好,但不理解你的判断。

每一层都解决了上一层的表面问题,同时暴露了更深的问题:

说对话 → 说对了但上下文不够
给上下文 → 有上下文但不能行动
给身体 → 能行动但不知道自己是谁
给灵魂 → 有身份但记不住
给记忆 → 记住了但不理解

最后一个”不理解”是所有层的共同天花板。


决定能力的是模型

357k stars 的 OpenClaw,剥掉包装,是一个消息转发器。把用户的话从 Telegram 搬到 LLM,再把回复搬回来。价值在 LLM,不在搬运。

53k stars 的 Mem0,剥掉包装,是一个带 LLM 提取的数据库。存、取、删。换掉底下的模型,整个系统立刻变强或变弱。

730 行代码的 A-Mem,号称”Agent 自主组织记忆”,实际上唯一的”自主决策”是一次 LLM 调用——把新记忆和五个旧记忆一起发给模型,问它要不要建链接。

所有框架的能力上限 = 底层模型的能力上限。 框架不创造能力,只创造调用模式。

这就是为什么每一代框架都短命。不是被更好的框架替代了,是被更强的模型淘汰了。GPT-4 出来,90% 的 prompt engineering 技巧失效。上下文窗口从 4k 涨到 1M,大部分 RAG 分块策略失去意义。模型原生支持工具调用,一整层 agent 抽象变成多余。

模型每进一步,框架就退一步。 Stars 不代表技术价值,代表焦虑——人们不知道该怎么用 AI,所以抓住任何看起来像答案的东西。


模型会原生支持吗

那这些框架会永远存在吗?取决于模型自己能不能做这些事。

持久记忆:会。 这是工程问题,不是理论障碍。没有任何原理阻止模型原生支持持久化的语义记忆。现在所有平台的记忆都是 system prompt 注入——提取事实、塞进上下文,本质是贴便签。一旦某家把检索式记忆做进基础设施层,Mem0 类框架立刻消失。

多通道接入:已经在发生。 Claude 已经支持桌面端、Web、IDE、CLI、MCP。模型厂商在自己做 OpenClaw 做的事,而且做得更原生。

自我进化:不敢。 这不是工程问题,是安全问题。模型在部署后改自己的权重,面临两个未解难题——灾难性遗忘(改了新的忘了旧的)和对齐失效(模型重写了自己,安全约束还在吗?)。

所以 Hermes 占的位置反而最安全。不是因为它做得多好,是因为”外部脚手架式进化”可能就是最终形态——不是做不到原生,是不敢做原生。让进化发生在模型外面,至少安全可控。


技能沉淀是个伪命题

Hermes 最被追捧的功能是”从经验中自动创建技能”。但这个功能有一个致命的假设:你做过的事会反复做。

真正重复的事,写个脚本就行了,不需要 AI。需要 AI 的事,恰恰是因为每次都不一样。

每天发日报——cron + 模板搞定。每篇博客——每篇都是新的。每个 bug——每个都不一样。商业决策——每次语境完全不同。

技能沉淀落在一个很窄的区间里:“有一定模式但每次略有不同”的任务。这个区间存在,但远没有想象的那么大。

而且模型在变强。今天沉淀的技能是基于今天模型能力的变通方案。三个月后模型更强了,它可以直接做到那件事,不需要你的技能。精心维护的技能库变成历史包袱。

唯一值得沉淀的不是”怎么做”,是”做什么”和”为什么做”——意图和判断,不是操作步骤。


不变的

什么在变?操作层级在不断上移:

一句话 → 一个窗口 → 一个网关 → 一个身份 → 一段记忆

每一步都把人从循环里往外推一点。Prompt 阶段你每次都要说清楚。Context 阶段你每个任务组织一次。到了 Memory + Agent,你只需要说一次”我是谁、我要什么”。

什么不变?所有这些工程实践,本质上都是人在替 AI 做理解的工作。你组织上下文、你定义人格、你维护记忆、你写规则。AI 没有在理解你,是你在不断把自己翻译成 AI 能处理的格式。

人还是那个路由器。五层脚手架让路由器的工作更系统化了,但没有改变谁在路由。

真正的转折不是下一个”XX Engineering”。是 AI 开始自己路由的那一刻——自己决定需要什么信息,自己判断该记住什么、忘掉什么,自己知道什么时候该行动、什么时候该等待。

那一刻还没来。但所有人都在为那一刻搭脚手架。

2026.04.14