技能评测器：功能详解

评测一个 Skill 的好坏，需要的远不只是“跑一遍看看”。从写测试用例到出报告、从打分到迭代改进，每个环节都有对应的工具在帮你。下面按你实际会用到的顺序，逐一介绍。

先搞清楚你在测什么

Skill 大致分两类。能力提升型帮 Claude 做它本来做不好或做不稳定的事，比如在 PDF 非可填写表单上精准放置文字。编码偏好型把 Claude 已经会的事按你团队的流程串起来，比如用固定标准审核 NDA 合同。前者需要评测来发现“模型是不是已经学会了这个技巧，Skill 不再必要了”，后者需要评测来验证“Skill 是不是忠实地执行了我们的流程”。明白这一点，你在设计测试用例和断言时会更有方向感。

测试用例设计

测试用例是评测的起点。你告诉 Claude 你的 Skill 是做什么的，它会帮你拟出 2-3 个有代表性的测试 prompt，覆盖基础场景和边缘情况。所有用例保存在 evals/evals.json 里，结构很简单：每条记录包含一个 prompt、一段预期结果的描述，以及可选的输入文件。你随时可以增删改，Claude 也会主动征求你的意见——“这几个测试场景覆盖面够不够？要不要加一个更极端的？”

多 Agent 并行对比

测试跑起来后，每个用例会同时启动两个独立的 Agent：一个读了你的 Skill 再干活（with_skill），一个什么都不知道直接上手（without_skill）。每个 Agent 都在全新的上下文中运行，有独立的 Token 和耗时统计，不会互相“串味”。两组结果放在一起看，你才能判断 Skill 到底带来了多少增益。如果你是在改进一个已有的 Skill，基线会换成旧版本，方便你看到“新版比旧版好在哪”。

多 Agent 并行 A/B 对比测试

断言与自动评分

光看输出文件还不够精准。断言（assertions）是一组可验证的判断条件，比如“输出必须包含日期字段”“文件格式是 PDF”“表格至少有 5 行数据”。Grader Agent 会读取测试的执行记录和输出文件，逐条检查每个断言：通过就标 PASS，不通过就标 FAIL，并附上具体证据（比如“在第 3 步找到了日期字段：2026-03-01”）。它还会额外扫描输出中的隐含声明，帮你发现断言本身可能没覆盖到的问题。

能用代码验证的断言，Grader 会优先写脚本来跑，比人眼检查更快也更准。

PDF Skill 评测结果示例

基准聚合

跑完所有测试后，聚合脚本会把分散的评分数据汇总成一张统计表：with_skill 和 without_skill 两组的通过率均值、标准差、耗时、Token 用量，以及两者之间的差值。这张表能让你一眼看出 Skill 的实际效果——通过率提升了 50% 但耗时多了 13 秒，值不值得？你说了算。

Analyzer Agent 还会在统计数据之上做进一步分析：哪些断言在两组中都 100% 通过（说明它们区分不了 Skill 的价值），哪些测试用例方差特别大（可能是用例本身不稳定），这些洞察光看汇总数字是看不到的。你的评测数据和结果完全在本地——可以存档、接入看板，或者放进 CI 流水线自动跑。

基准模式的量化对比面板

Eval Viewer 可视化审阅

所有结果最终呈现在一个浏览器页面里。Outputs 标签页让你逐个翻看每个测试用例的输出：prompt 是什么、Skill 生成了什么文件、评分结果如何。你可以在每个用例下面写批注——“图表缺少坐标轴标签”“这个格式刚好是我要的”。Benchmark 标签页展示量化数据的汇总和逐条明细。

从第二轮迭代开始，Viewer 还会折叠显示上一轮的输出和你的批注，方便你对比前后变化。审阅完成后点击“Submit All Reviews”，所有反馈保存到 feedback.json，Claude 会读取它来决定下一步怎么改。

迭代改进循环

这是评测系统最核心的价值。Claude 读取你的反馈后，会分析哪些测试用例有具体抱怨、哪些没写批注（说明满意），然后针对性地修改 Skill。改完后自动跑新一轮测试，生成新的 Viewer 让你继续审阅。这个循环一直转下去，直到你觉得满意、或者反馈全是空的、或者改进幅度已经趋于平稳。

盲评对比

如果你想更严格地比较两个版本的 Skill，可以启动盲评模式。一个独立的 Comparator Agent 会收到两份输出（标记为 A 和 B），但它不知道哪份来自哪个版本。它根据内容质量、完成度、格式规范等维度打分，选出胜者并说明理由。之后 Analyzer Agent 揭盲，对照两个版本的 Skill 和执行记录，分析胜出方强在哪里、落败方弱在哪里，给出可操作的改进建议。

描述优化

Skill 的 description 字段决定了 Claude 会不会在该用的时候调用它。描述优化模块会先生成 20 个测试查询（一半应该触发、一半不应该触发），让你在一个 HTML 页面里审核和调整，然后启动自动优化循环：反复测试当前描述的触发准确率，用 AI 提出改写方案，再测试、再改写，最多迭代 5 轮。整个过程会把测试集分成训练集和验证集，按验证集的得分选出最佳描述，避免过拟合。Anthropic 在自己的 6 个公开文档类 Skill 上跑了这个流程，其中 5 个的触发准确率都有改善。

描述优化迭代结果