脚手架

2026-03-07 AI · Skills · 工程化

2026年3月，Anthropic 给它的技能工厂（skill-creator）做了一次升级。加了几个东西：Evals、Benchmark、Comparator、Description Tuning。

如果你没用过 Agent Skills，这些词看起来像营销黑话。如果你用过，你大概能猜到它们想解决什么——那些”看起来能用”的技能，到底好不好用？

先简单说下 Skills 是什么。

2025年10月 Anthropic 推出 Agent Skills，一种模块化的”技能包”。一个文件夹里装一个 SKILL.md（指令）、一些脚本、若干资源。Claude 需要的时候自动加载。你可以让模型按你的方式写周报，按你的标准审合同。

但技能写完了，问题来了：这个技能在新模型上还能用吗？跑十个案例成功几个？改了一下到底是变好了还是变差了？

答案是不知道。因为没地方测。

这次升级就是在补这个缺口。

Evals 让你描述”输入什么，应该输出什么”，系统自动跑验证。Benchmark 批量跑标准化测试，给你通过率、耗时、Token 消耗。Comparator 做盲测对比，让一个中立的 AI 比较两个版本谁更好。Description Tuning 分析触发词，减少误触发。

简单说，它给技能创作装了四个仪表盘。

——但我想聊的不是功能。我一直在想一个问题。

经验本身不应该是已经被验证过，是有效的，才会被封装起来吗？为什么封装完了还要再验？

答案在换了一个视角之后变得清楚。

在人类世界里，经验有效的隐含前提是：由具备常识和判断力的人来执行。律师知道”注意违约金条款”背后有无数未明写的潜知识。但把这个经验封装成 Skill 交给 Claude，执行者变成了一个统计模型。它可能字面理解”注意违约金条款”，然后在完全无关的文档里也试图找违约金。

经验在人类身上有效，不等于在模型身上有效。这不是经验的错，是执行者换了。

更麻烦的是，执行者还在不断换。Sonnet 4 用得好好的技能，到 Opus 4 可能就失灵了。因为模型的”思考方式”变了，对指令的敏感度变了。原本有效的指令，在新的模型版本上可能突然失效。

所以 Skill 需要的不是一次验证，而是一套持续验证的系统。这正是 Evals 和 Benchmark 在做的事。

有一个简单的判断标准：拿掉一层工程，模型的有效输出是否变少？

变少，就是有价值的管道。不变，就是雕花。

拿掉 Evals，你无法知道技能在新模型上是否还在工作。模型有效输出变少——管道。拿掉 Benchmark，你不知道技能是稳定还是抽风。拿掉 Comparator，你不知道新版本是真进步还是假幻觉。拿掉 Description Tuning，技能可能在错误的地方被触发，制造垃圾输出。

这套系统本身，是一条用来测量技能管道的管道。

那 Skill 和模型的关系到底是什么？

有一种可能是：技能最终会被模型内化。这是推测，但不是没有道理。

当足够多的人用同一类技能（比如审合同、写周报、做数据分析），这些技能里封装的经验模式会成为高质量的信号。如果这些信号被用于训练，下一代模型可能原生就能做这些事了。技能退休。

但退休不是终点。专家们会去封装下一批模型还做不到的事。

这是一个”外挂技能”不断滋养”模型内核”的循环。Skill 像脚手架，建完一层就拆掉，但楼在长高。

而这里有一个微妙的矛盾。

Anthropic 给了一套零代码的工具，让全球的领域专家——律师、会计、产品经理、编剧——把他们的经验封装成 AI 能执行的技能。这看起来是在挖掘隐性知识。

但实际上，专家写进 SKILL.md 的是显性指令。真正的隐性知识——那些”我知道该怎么做，但说不清”的部分——恰恰是写不出来的。

这正好回到了前面的问题。专家以为自己封装了全部经验，模型执行时却发现缺了未言明的常识。于是技能失灵，于是需要 Evals 来持续检测，于是需要不断迭代。

这个循环本身，就是在逐步逼近那些原本说不清的隐性知识。不是一次性挖出来的，是在”封装-测试-失败-修正”的循环里慢慢逼近的。

这也是真正的护城河所在。

当成千上万个技能都经过了数百轮验证，沉淀下来的不是 Markdown 文件——那些随时可以复制。沉淀下来的是验证基础设施本身：每个技能在多少个模型版本上测过、哪些边界条件会失败、怎样的指令写法对当前模型最有效。

用户迁移到其他模型时，丢失的不是技能文本，而是”这个技能经过 200 次测试证明有效”的信心。这份信心没法导出。

所以判断一个 Skill 值不值得做，标准是：它是不是让模型写出更多有用的东西？

如果是，就做。如果不是，就停。

而判断一个验证系统值不值得建，标准是：它是不是让你知道模型有没有在写有用的东西？

如果是，就建。

2026.03.07