脚手架
2026年3月,Anthropic 给它的技能工厂(skill-creator)做了一次升级。加了几个东西:Evals、Benchmark、Comparator、Description Tuning。
如果你没用过 Agent Skills,这些词看起来像营销黑话。如果你用过,你大概能猜到它们想解决什么——那些”看起来能用”的技能,到底好不好用?
先简单说下 Skills 是什么。
2025年10月 Anthropic 推出 Agent Skills,一种模块化的”技能包”。一个文件夹里装一个 SKILL.md(指令)、一些脚本、若干资源。Claude 需要的时候自动加载。你可以让模型按你的方式写周报,按你的标准审合同。
但技能写完了,问题来了:这个技能在新模型上还能用吗?跑十个案例成功几个?改了一下到底是变好了还是变差了?
答案是不知道。因为没地方测。
这次升级就是在补这个缺口。
Evals 让你描述”输入什么,应该输出什么”,系统自动跑验证。Benchmark 批量跑标准化测试,给你通过率、耗时、Token 消耗。Comparator 做盲测对比,让一个中立的 AI 比较两个版本谁更好。Description Tuning 分析触发词,减少误触发。
简单说,它给技能创作装了四个仪表盘。
——但我想聊的不是功能。我一直在想一个问题。
经验本身不应该是已经被验证过,是有效的,才会被封装起来吗?为什么封装完了还要再验?
答案在换了一个视角之后变得清楚。
在人类世界里,经验有效的隐含前提是:由具备常识和判断力的人来执行。律师知道”注意违约金条款”背后有无数未明写的潜知识。但把这个经验封装成 Skill 交给 Claude,执行者变成了一个统计模型。它可能字面理解”注意违约金条款”,然后在完全无关的文档里也试图找违约金。
经验在人类身上有效,不等于在模型身上有效。这不是经验的错,是执行者换了。
更麻烦的是,执行者还在不断换。Sonnet 4 用得好好的技能,到 Opus 4 可能就失灵了。因为模型的”思考方式”变了,对指令的敏感度变了。原本有效的指令,在新的模型版本上可能突然失效。
所以 Skill 需要的不是一次验证,而是一套持续验证的系统。这正是 Evals 和 Benchmark 在做的事。
有一个简单的判断标准:拿掉一层工程,模型的有效输出是否变少?
变少,就是有价值的管道。不变,就是雕花。
拿掉 Evals,你无法知道技能在新模型上是否还在工作。模型有效输出变少——管道。拿掉 Benchmark,你不知道技能是稳定还是抽风。拿掉 Comparator,你不知道新版本是真进步还是假幻觉。拿掉 Description Tuning,技能可能在错误的地方被触发,制造垃圾输出。
这套系统本身,是一条用来测量技能管道的管道。
那 Skill 和模型的关系到底是什么?
有一种可能是:技能最终会被模型内化。这是推测,但不是没有道理。
当足够多的人用同一类技能(比如审合同、写周报、做数据分析),这些技能里封装的经验模式会成为高质量的信号。如果这些信号被用于训练,下一代模型可能原生就能做这些事了。技能退休。
但退休不是终点。专家们会去封装下一批模型还做不到的事。
这是一个”外挂技能”不断滋养”模型内核”的循环。Skill 像脚手架,建完一层就拆掉,但楼在长高。
而这里有一个微妙的矛盾。
Anthropic 给了一套零代码的工具,让全球的领域专家——律师、会计、产品经理、编剧——把他们的经验封装成 AI 能执行的技能。这看起来是在挖掘隐性知识。
但实际上,专家写进 SKILL.md 的是显性指令。真正的隐性知识——那些”我知道该怎么做,但说不清”的部分——恰恰是写不出来的。
这正好回到了前面的问题。专家以为自己封装了全部经验,模型执行时却发现缺了未言明的常识。于是技能失灵,于是需要 Evals 来持续检测,于是需要不断迭代。
这个循环本身,就是在逐步逼近那些原本说不清的隐性知识。不是一次性挖出来的,是在”封装-测试-失败-修正”的循环里慢慢逼近的。
这也是真正的护城河所在。
当成千上万个技能都经过了数百轮验证,沉淀下来的不是 Markdown 文件——那些随时可以复制。沉淀下来的是验证基础设施本身:每个技能在多少个模型版本上测过、哪些边界条件会失败、怎样的指令写法对当前模型最有效。
用户迁移到其他模型时,丢失的不是技能文本,而是”这个技能经过 200 次测试证明有效”的信心。这份信心没法导出。
所以判断一个 Skill 值不值得做,标准是:它是不是让模型写出更多有用的东西?
如果是,就做。如果不是,就停。
而判断一个验证系统值不值得建,标准是:它是不是让你知道模型有没有在写有用的东西?
如果是,就建。
2026.03.07