
技能评测器:功能详解

评测一个 Skill 的好坏,需要的远不只是“跑一遍看看”。从写测试用例到出报告、从打分到迭代改进,每个环节都有对应的工具在帮你。下面按你实际会用到的顺序,逐一介绍。
先搞清楚你在测什么
Skill 大致分两类。能力提升型帮 Claude 做它本来做不好或做不稳定的事,比如在 PDF 非可填写表单上精准放置文字。编码偏好型把 Claude 已经会的事按你团队的流程串起来,比如用固定标准审核 NDA 合同。前者需要评测来发现“模型是不是已经学会了这个技巧,Skill 不再必要了”,后者需要评测来验证“Skill 是不是忠实地执行了我们的流程”。明白这一点,你在设计测试用例和断言时会更有方向感。
测试用例设计
测试用例是评测的起点。你告诉 Claude 你的 Skill 是做什么的,它会帮你拟出 2-3 个有代表性的测试 prompt,覆盖基础场景和边缘情况。所有用例保存在 evals/evals.json 里,结构很简单:每条记录包含一个 prompt、一段预期结果的描述,以及可选的输入文件。你随时可以增删改,Claude 也会主动征求你的意见——“这几个测试场景覆盖面够不够?要不要加一个更极端的?”
多 Agent 并行对比
测试跑起来后,每个用例会同时启动两个独立的 Agent:一个读了你的 Skill 再干活(with_skill),一个什么都不知道直接上手(without_skill)。每个 Agent 都在全新的上下文中运行,有独立的 Token 和耗时统计,不会互相“串味”。两组结果放在一起看,你才能判断 Skill 到底带来了多少增益。如果你是在改进一个已有的 Skill,基线会换成旧版本,方便你看到“新版比旧版好在哪”。

断言与自动评分
光看输出文件还不够精准。断言(assertions)是一组可验证的判断条件,比如“输出必须包含日期字段”“文件格式是 PDF”“表格至少有 5 行数据”。Grader Agent 会读取测试的执行记录和输出文件,逐条检查每个断言:通过就标 PASS,不通过就标 FAIL,并附上具体证据(比如“在第 3 步找到了日期字段:2026-03-01”)。它还会额外扫描输出中的隐含声明,帮你发现断言本身可能没覆盖到的问题。
能用代码验证的断言,Grader 会优先写脚本来跑,比人眼检查更快也更准。

基准聚合
跑完所有测试后,聚合脚本会把分散的评分数据汇总成一张统计表:with_skill 和 without_skill 两组的通过率均值、标准差、耗时、Token 用量,以及两者之间的差值。这张表能让你一眼看出 Skill 的实际效果——通过率提升了 50% 但耗时多了 13 秒,值不值得?你说了算。
Analyzer Agent 还会在统计数据之上做进一步分析:哪些断言在两组中都 100% 通过(说明它们区分不了 Skill 的价值),哪些测试用例方差特别大(可能是用例本身不稳定),这些洞察光看汇总数字是看不到的。你的评测数据和结果完全在本地——可以存档、接入看板,或者放进 CI 流水线自动跑。

Eval Viewer 可视化审阅
所有结果最终呈现在一个浏览器页面里。Outputs 标签页让你逐个翻看每个测试用例的输出:prompt 是什么、Skill 生成了什么文件、评分结果如何。你可以在每个用例下面写批注——“图表缺少坐标轴标签”“这个格式刚好是我要的”。Benchmark 标签页展示量化数据的汇总和逐条明细。
从第二轮迭代开始,Viewer 还会折叠显示上一轮的输出和你的批注,方便你对比前后变化。审阅完成后点击“Submit All Reviews”,所有反馈保存到 feedback.json,Claude 会读取它来决定下一步怎么改。
迭代改进循环
这是评测系统最核心的价值。Claude 读取你的反馈后,会分析哪些测试用例有具体抱怨、哪些没写批注(说明满意),然后针对性地修改 Skill。改完后自动跑新一轮测试,生成新的 Viewer 让你继续审阅。这个循环一直转下去,直到你觉得满意、或者反馈全是空的、或者改进幅度已经趋于平稳。
盲评对比
如果你想更严格地比较两个版本的 Skill,可以启动盲评模式。一个独立的 Comparator Agent 会收到两份输出(标记为 A 和 B),但它不知道哪份来自哪个版本。它根据内容质量、完成度、格式规范等维度打分,选出胜者并说明理由。之后 Analyzer Agent 揭盲,对照两个版本的 Skill 和执行记录,分析胜出方强在哪里、落败方弱在哪里,给出可操作的改进建议。
描述优化
Skill 的 description 字段决定了 Claude 会不会在该用的时候调用它。描述优化模块会先生成 20 个测试查询(一半应该触发、一半不应该触发),让你在一个 HTML 页面里审核和调整,然后启动自动优化循环:反复测试当前描述的触发准确率,用 AI 提出改写方案,再测试、再改写,最多迭代 5 轮。整个过程会把测试集分成训练集和验证集,按验证集的得分选出最佳描述,避免过拟合。Anthropic 在自己的 6 个公开文档类 Skill 上跑了这个流程,其中 5 个的触发准确率都有改善。
