上下文

2026-04-04 AI · 工程 · 哲学

三个仓库

最近翻了三个 Claude Code 增强项目。数字很漂亮：一个有 156 个技能模块，72 条命令，28 个预配置服务；一个有 14 个方法论技能，覆盖从头脑风暴到代码审查的完整生命周期；还有一个做了 22 种生命周期事件的钩子，甚至给每种事件配了音效。

它们都在做同一件事：教 AI 怎么工作。

四阶段调试法告诉它先找根因再动手。TDD 铁律要求没有失败测试就不准写代码。156 个编码规范在它写每种语言时注入最佳实践。听起来都对。直到你问一个问题：

如果模型已经知道这些，这些规则在做什么？

Ray Dalio 说过一个观点：当你变得足够强，许多看起来在帮你的东西，实际上在限制你。

这句话的适用范围比他本人讨论的更广。规则、流程、最佳实践——它们的价值建立在一个隐含假设上：执行者不够强，需要被引导。对新手来说这是对的。对一个已经能从第一性原理推导出这些规则的系统来说，它们就变成了另一种东西。

不是护栏。是笼子。

一个被 156 条规则包围的模型，会倾向于机械执行步骤，而不是真正理解问题。就像一个已经见过道的修行者，如果还要每天对着戒律清单逐条打勾，那不是修行，是表演。

回到技术层面。大语言模型的输出是上下文的函数。不管 prompt 写了多少步骤、多少约束、多少最佳实践，模型生成每个 token 时看到的只是当前窗口里的内容。

所以那些技能模块的本质不是”教模型思考”——模型不需要被教。它们的本质是上下文管理：在特定时刻，往窗口里注入特定的信息。

四阶段调试法 = 在调试时注入”先找根因”这个上下文。 TDD 铁律 = 在写代码时注入”先写测试”这个约束。 156 个编码规范 = 在写特定语言时注入该语言的惯用模式。

理解了这一层，问题就变了：不是”需要多少技能”，而是”窗口里放什么，不放什么”。

我自己维护了一套 Claude Code 的工作流系统。21 个命令，14 个钩子。听起来也不少。但当我用上面的视角重新审视，真正不可替代的只剩两类：

第一类：模型做不到的事。

跨会话记忆。我做的项目太多，认知带宽不够，需要系统替我记住上下文在哪、做到哪了、踩过什么坑。这不是模型能力问题，是架构限制——会话结束，一切归零。日记、周报、焦点追踪，这些都是在弥补一个结构性缺陷。

第二类：模型会失控的点。

不是它不知道该怎么做，而是它太急于做。看到答案就想动手改代码，被要求修一个 bug 顺手”优化”了三个文件，说”完成了”但其实没跑过测试。这些不是能力不足，是行为偏差。就像一个聪明但冲动的人，需要的不是更多知识，是几条纪律。

“确认前禁止改代码。” “禁止顺手优化。” “标记完成前自问：资深工程师会认可这份代码吗？”

这些不是在教它怎么想。是在它会犯错的地方加一道门。

其余的——调试方法论、编码规范、审查流程——随着模型越来越强，它们的边际价值趋近于零。留着不伤害什么，但也不要以为它们在起作用。

佛家的戒律有一个被忽略的维度：它不是永恒的规则，是阶段性的工具。

初学者需要戒律，因为心猿意马，不知道边界在哪。但修行到一定程度，戒律内化为自然——不是在遵守规则，是根本不会想去违反。到那个阶段，戒律清单就是多余的。不是因为它错了，是因为你已经超过了它。

模型的进化路径类似。今天需要的护栏，明天可能就是障碍。而真正有价值的基础设施——记忆、持久化、跨会话的连续性——这些不随能力增长而贬值，因为它们解决的不是”怎么做”的问题，是”记得什么”的问题。

所以最好的系统不是规则最多的系统。是规则最少、但每条都不可替代的系统。

我的产品设计有三条铁律：一个入口、复杂隐形、越用越懂。

回头看，这套 AI 协作系统应该遵循同样的标准。用户——也就是我——打开一个会话，不需要知道背后有多少命令、多少钩子、多少规则。系统替我记住上下文，在我会犯错的地方拦一下，剩下的让模型自己判断。

不是 156 个技能。是几条纪律，加一个好记性。

表面极简，背后极深。

2026.04.04